
Nos últimos dois anos, as empresas que avaliaram modelos de peso aberto enfrentaram uma difícil compensação. A linha Gemma do Google apresentou consistentemente um forte desempenho, mas sua licença personalizada – com restrições de uso e termos que o Google poderia atualizar à vontade – empurrou muitas equipes para o Mistral ou o Qwen do Alibaba. A revisão jurídica acrescentou atrito. As equipes de conformidade sinalizaram casos extremos. E por mais capaz que Gemma 3 fosse, "abrir" com asteriscos não é o mesmo que aberto.
Gema 4 elimina totalmente esse atrito. A mais nova família de modelos abertos do Google DeepMind é fornecida sob um padrão Licença Apache 2.0 – os mesmos termos permissivos usados por Qwen, Mistral, Arcee e a maior parte do ecossistema de peso aberto.
Sem cláusulas personalizadas, não "Uso prejudicial" exclusões que exigiam interpretação jurídica, sem restrições à redistribuição ou implantação comercial. Para as equipes empresariais que esperavam que o Google jogasse nos mesmos termos de licenciamento do resto da área, a espera acabou.
O momento é notável. Como alguns laboratórios chineses de IA (principalmente os modelos Qwen mais recentes do Alibaba, Qwen3.5 Omni e Qwen 3.6 Plus) começaram a recuar dos lançamentos totalmente abertos para seus modelos mais recentes, o Google está se movendo na direção oposta – abrindo seu lançamento Gemma mais capaz até agora, ao mesmo tempo em que declara explicitamente que a arquitetura se baseia em seu comercial Gêmeos 3 pesquisar.
Quatro modelos, dois níveis: Da borda à estação de trabalho em uma única família
Gemma 4 chega como quatro modelos distintos organizados em duas camadas de implantação. O "estação de trabalho" nível inclui um Modelo denso de 31 parâmetros B e um Modelo de mistura de especialistas 26B A4B – ambos com suporte para entrada de texto e imagem com janelas de contexto de token de 256 mil. O "borda" nível consiste no E2B e E4Bmodelos compactos projetados para telefones, dispositivos incorporados e laptops, com suporte para texto, imagem e áudio com janelas de contexto de token de 128K.
A convenção de nomenclatura exige alguma descompactação. O "E" prefixo denota "parâmetros eficazes" – o E2B tem 2,3 bilhões de parâmetros efetivos, mas 5,1 bilhões no total, porque cada camada decodificadora carrega sua própria pequena tabela de incorporação por meio de uma técnica que o Google chama Incorporações por camada (PLE). Essas tabelas são grandes em disco, mas baratas para calcular, e é por isso que o modelo funciona como um 2B, embora tecnicamente pese mais.
O "UM" em 26B A4B significa "parâmetros ativos" — apenas 3,8 bilhões dos 25,2 bilhões de parâmetros totais do modelo MoE são ativados durante a inferência, o que significa que ele fornece inteligência de classe aproximadamente 26B com custos de computação comparáveis a um modelo 4B.
Para os líderes de TI que dimensionam os requisitos de GPU, isso se traduz diretamente em flexibilidade de implantação. O modelo MoE pode ser executado em GPUs de consumo e deve aparecer rapidamente em ferramentas como Ollama e LM Studio. O modelo denso de 31B requer mais espaço – pense em um NVIDIA H100 ou RTX 6000 Pro para inferência não quantizada – mas o Google também está enviando Pontos de verificação do treinamento com reconhecimento de quantização (QAT) para manter a qualidade com menor precisão. No Google Cloud, ambos os modelos de estação de trabalho agora podem ser executados em uma configuração totalmente sem servidor por meio de Execução na nuvem com GPUs NVIDIA RTX Pro 6000, girando até zero quando ocioso.
A aposta do MoE: 128 pequenos especialistas para economizar nos custos de inferência
As escolhas arquitetônicas dentro do modelo 26B A4B merecem atenção especial das equipes que avaliam a economia de inferência. Em vez de seguir o padrão dos grandes modelos recentes do MoE que utilizam um punhado de grandes especialistas, o Google optou por 128 pequenos especialistasativando oito por token mais um especialista sempre ativo compartilhado. O resultado é um modelo que faz benchmarking competitivo com modelos densos na faixa 27B–31B enquanto roda aproximadamente na velocidade de um modelo 4B durante a inferência.
Isto não é apenas uma curiosidade de referência – afeta diretamente os custos de serviço. Um modelo que oferece raciocínio de classe 27B com taxa de transferência de classe 4B significa menos GPUs, menor latência e inferência mais barata por token na produção. Para organizações que executam assistentes de codificação, pipelines de processamento de documentos ou fluxos de trabalho de agentes multivoltas, a variante MoE pode ser a escolha mais prática da família.
Ambos os modelos de estação de trabalho usam um mecanismo de atenção híbrido que intercala a atenção da janela deslizante local com a atenção global completa, com a camada final sempre global. Esse design permite a janela de contexto de 256K enquanto mantém o consumo de memória gerenciável – uma consideração importante para equipes que processam documentos longos, bases de código ou conversas de agentes multivoltas.
Multimodalidade nativa: visão, áudio e chamadas de funções integradas do zero
As gerações anteriores de modelos abertos normalmente tratavam a multimodalidade como um complemento. Codificadores de visão foram aparafusados em backbones de texto. O áudio exigia um pipeline ASR externo como o Whisper. A chamada de função dependia de engenharia imediata e da esperança de que o modelo cooperasse. Gemma 4 integra todos esses recursos no nível da arquitetura.
Todos os quatro modelos lidam entrada de imagem com proporção variável com orçamentos de tokens visuais configuráveis — uma melhoria significativa em relação ao antigo codificador de visão Gemma 3n, que tinha dificuldades com OCR e compreensão de documentos. O novo codificador suporta orçamentos de 70 a 1.120 tokens por imagem, permitindo que os desenvolvedores negociem detalhes com computação, dependendo da tarefa.
Orçamentos mais baixos funcionam para classificação e legendagem; orçamentos mais altos lidam com OCR, análise de documentos e análise visual refinada. A entrada de múltiplas imagens e vídeo (processada como sequências de quadros) é suportada nativamente, permitindo o raciocínio visual em vários documentos ou capturas de tela.
Os dois modelos de arestas adicionam processamento de áudio nativo — reconhecimento automático de fala e conversão de fala em texto traduzido, tudo no dispositivo. O codificador de áudio foi compactado para 305 milhões de parâmetros, abaixo dos 681 milhões no Gemma 3n, enquanto a duração do quadro caiu de 160ms para 40ms para uma transcrição mais responsiva. Para equipes que criam aplicativos de voz que precisam manter os dados locais – pense em saúde, serviço de campo ou interação multilíngue com o cliente – executar ASR, tradução, raciocínio e chamada de função em um único modelo em um telefone ou dispositivo de borda é uma simplificação arquitetônica genuína.
Chamada de função também é nativo em todos os quatro modelos, com base em pesquisas do Google FunçãoGemma lançamento no final do ano passado. Ao contrário das abordagens anteriores que dependiam do seguimento de instruções para persuadir os modelos a usarem ferramentas estruturadas, a chamada de função do Gemma 4 foi treinada no modelo desde o início – otimizada para fluxos de agente multiturno com múltiplas ferramentas. Isso aparece em benchmarks de agentes, mas, mais importante, reduz a sobrecarga imediata de engenharia que as equipes empresariais normalmente investem ao criar agentes que usam ferramentas.
Benchmarks no contexto: onde Gemma 4 pousa em um campo lotado
Os números de referência contam uma história clara de melhoria geracional. As pontuações do modelo denso 31B 89,2% GOSTAMOS de 2026 (um rigoroso teste de raciocínio matemático), 80,0% no LiveCodeBench v6e atinge um Codeforce ELO de 2.150 – números que teriam sido de classe de fronteira a partir de modelos proprietários não muito tempo atrás. Na visão, o MMMU Pro atinge 76,9% e o MATH-Vision atinge 85,6%.
Para efeito de comparação, Gemma 3 27B obteve pontuação de 20,8% no AIME e 29,1% no LiveCodeBench sem modo de pensamento.
O modelo MoE acompanha de perto: 88,3% no AIME 2026, 77,1% no LiveCodeBench e 82,3% no GPQA Diamond – uma referência de raciocínio científico de nível de pós-graduação. A diferença de desempenho entre o MoE e as variantes densas é modesta, dada a significativa vantagem de custo de inferência da arquitetura MoE.
Os modelos de ponta superam sua classe de peso. O E4B atinge 42,5% no AIME 2026 e 52,0% no LiveCodeBench – forte para um modelo que roda em uma GPU T4. O E2B, ainda menor, administra 37,5% e 44,0% respectivamente. Ambos superam significativamente o Gemma 3 27B (sem pensar) na maioria dos benchmarks, apesar de serem uma fração do tamanho, graças à capacidade de raciocínio integrada.
Esses números precisam ser lidos em relação a um cenário de peso aberto cada vez mais competitivo. Qwen 3.5, GLM-5 e Kimi K2.5 competem agressivamente nesta faixa de parâmetros e o campo se move rapidamente. O que distingue o Gemma 4 é menos um benchmark único e mais a combinação: raciocínio forte, multimodalidade nativa em texto, visão e áudio, chamada de função, contexto de 256K e uma licença genuinamente permissiva — tudo em uma única família de modelos com opções de implantação de dispositivos de borda até nuvem sem servidor.
O que as equipes empresariais devem observar a seguir
O Google está lançando modelos básicos pré-treinados e variantes ajustadas por instrução, o que é importante para organizações que planejam fazer ajustes para domínios específicos. Os modelos básicos do Gemma têm sido historicamente bases sólidas para o treinamento personalizado, e a licença Apache 2.0 agora elimina qualquer ambigüidade sobre se os derivados ajustados podem ser implantados comercialmente.
Vale a pena observar a opção de implantação sem servidor por meio do Cloud Run com suporte a GPU para equipes que precisam de capacidade de inferência que pode ser escalada até zero. Pagar apenas pela computação real durante a inferência — em vez de manter instâncias de GPU sempre ativas — poderia mudar significativamente a economia da implantação de modelos abertos na produção, especialmente para ferramentas internas e aplicativos de menor tráfego.
O Google deu a entender que esta pode não ser a família Gemma 4 completa, com tamanhos de modelo adicionais provavelmente a seguir. Mas a combinação disponível hoje – modelos de raciocínio de classe de estação de trabalho e modelos multimodais de classe de ponta, todos no Apache 2.0, todos baseados na pesquisa do Gemini 3 – representa o lançamento de modelo aberto mais completo que o Google já lançou. Para as equipes empresariais que esperavam pelos modelos abertos do Google para competir em termos de licenciamento e também em desempenho, a avaliação pode finalmente começar sem uma chamada para o departamento jurídico.

