
As empresas que criam fluxos de trabalho habilitados para voz têm opções limitadas para transcrição em nível de produção: APIs fechadas com riscos de residência de dados ou modelos abertos que trocam precisão por capacidade de implantação. O novo modelo ASR aberto da Cohere, Transcribe, foi desenvolvido para competir em todos os quatro principais diferenciais: precisão contextual, latência, controle e custo.
Cohere diz que o Transcribe supera os líderes atuais em precisão – e, diferentemente das APIs fechadas, ele pode ser executado na infraestrutura da própria organização.
Cohere, que pode ser acessado por meio de uma API ou no Model Vault da Cohere como cohere-transcribe-03-2026, tem 2 bilhões de parâmetros e é licenciado sob Apache-2.0. A empresa disse que o Transcribe tem uma taxa média de erro de palavras (WER) de apenas 5,42%, por isso comete menos erros do que modelos semelhantes.
É treinado em 14 idiomas: inglês, francês, alemão, italiano, espanhol, grego, holandês, polonês, português, chinês, japonês, coreano, vietnamita e árabe. A empresa não especificou em qual dialeto chinês o modelo foi treinado.
Cohere disse que treinou o modelo “com um foco deliberado na minimização do WER, mantendo a prontidão da produção como prioridade”. De acordo com Cohere, o resultado é um modelo que as empresas podem conectar diretamente a automações alimentadas por voz, pipelines de transcrição e fluxos de trabalho de pesquisa de áudio.
Transcrição auto-hospedada para pipelines de produção
Até recentemente, a transcrição empresarial era uma compensação: APIs fechadas ofereciam precisão, mas bloqueavam os dados; modelos abertos ofereciam controle, mas ficavam atrás em desempenho. Ao contrário do Whisper, que foi lançado como um modelo de pesquisa sob licença do MIT, o Transcribe está disponível para uso comercial desde o lançamento e pode ser executado na infraestrutura de GPU local da própria organização. Os primeiros usuários sinalizaram a abordagem de peso aberto pronta para uso comercial como significativa para implantações corporativas.
As organizações podem trazer o Transcribe para suas próprias instâncias locais, já que Cohere disse que o modelo tem uma pegada de inferência mais gerenciável para GPUs locais. A empresa disse que foi capaz de fazer isso porque o modelo “estende a fronteira de Pareto, fornecendo precisão de última geração (baixo WER) e ao mesmo tempo sustentando o melhor rendimento da categoria (alto RTFx) dentro da coorte do modelo de parâmetro 1B+”.
Como o Transcribe se compara
Transcreva modelos de fala com desempenho superior, incluindo Whisper da OpenAI, que alimenta o recurso de voz do ChatGPT, e ElevenLabs, que muitas grandes marcas de varejo implantam. Atualmente está no topo Abraçando a tabela de classificação ASR do rostoliderando com uma taxa média de erro de palavras de 5,42%, superando Whisper Large v3 com 7,44%, ElevenLabs Scribe v2 com 5,83% e Qwen3-ASR-1.7B com 5,76%.
Com base em outros conjuntos de dados testados pelo Hugging Face, o Transcribe também teve um bom desempenho. O conjunto de dados AMI, que mede a compreensão das reuniões e a análise do diálogo, Transcribe registrou uma pontuação de 8,15%. Para o conjunto de dados Voxpopuli que testa a compreensão de diferentes sotaques, o modelo obteve 5,87%, superado apenas pelo Zoom Scribe.
Os primeiros usuários sinalizaram a precisão e a implantação local como fatores de destaque – especialmente para equipes que roteiam dados de áudio por meio de APIs externas e desejam trazer essa carga de trabalho internamente.
Para equipes de engenharia que criam pipelines RAG ou fluxos de trabalho de agentes com entradas de áudio, o Transcribe oferece um caminho para transcrição de nível de produção sem as penalidades de residência de dados e latência de APIs fechadas.
