
Startup chinesa de IA Zipu AI, também conhecida como Z.ai lançou sua série GLM-4.6Vuma nova geração de modelos de linguagem de visão (VLMs) de código aberto otimizados para raciocínio multimodal, automação de front-end e implantação de alta eficiência.
O lançamento inclui dois modelos em "grande" e "pequeno" tamanhos:
-
GLM-4.6V (106B)um modelo maior de 106 bilhões de parâmetros voltado para inferência em escala de nuvem
-
Flash GLM-4.6V (9B)um modelo menor de apenas 9 bilhões de parâmetros projetado para aplicações locais de baixa latência
Lembre-se de que, de modo geral, os modelos com mais parâmetros — ou configurações internas que governam seu comportamento, ou seja, pesos e preconceitos — são mais poderosos, têm melhor desempenho e são capazes de funcionar em um nível geral mais elevado em tarefas mais variadas.
No entanto, modelos menores podem oferecer melhor eficiência para aplicações de ponta ou em tempo real, onde a latência e as restrições de recursos são críticas.
A inovação definidora nesta série é a introdução de chamada de função nativa em um modelo de linguagem de visão – permitindo o uso direto de ferramentas como pesquisa, corte ou reconhecimento de gráficos com entradas visuais.
Com um comprimento de contexto de token de 128.000 (equivalente ao texto de um romance de 300 páginas trocado em uma única interação de entrada/saída com o usuário) e resultados de última geração (SoTA) em mais de 20 benchmarks, a série GLM-4.6V se posiciona como uma alternativa altamente competitiva para VLMs fechados e de código aberto. Está disponível nos seguintes formatos:
-
Acesso à API via interface compatível com OpenAI
-
Experimente a demonstração na interface web do Zhipu
-
Baixar pesos de Abraçando o Rosto
-
Aplicativo assistente de desktop disponível em Abraçando espaços faciais
Licenciamento e uso empresarial
GLM‑4.6V e GLM‑4.6V‑Flash são distribuídos sob o MINHA licençauma licença permissiva de código aberto que permite uso comercial e não comercial gratuito, modificação, redistribuição e implantação local sem obrigação de trabalhos derivados de código aberto.
Este modelo de licenciamento torna a série adequada para adoção empresarial, incluindo cenários que exigem controle total sobre a infraestrutura, conformidade com a governança interna ou ambientes isolados.
Os pesos e a documentação do modelo são hospedados publicamente em Abraçando o rostocom código e ferramentas de suporte disponíveis em GitHub.
A licença MIT garante flexibilidade máxima para integração em sistemas proprietários, incluindo ferramentas internas, pipelines de produção e implantações de borda.
Arquitetura e Capacidades Técnicas
Os modelos GLM-4.6V seguem uma arquitetura codificadora-decodificadora convencional com adaptações significativas para entrada multimodal.
Ambos os modelos incorporam um codificador Vision Transformer (ViT) – baseado em AIMv2-Huge – e um projetor MLP para alinhar recursos visuais com um decodificador de modelo de linguagem grande (LLM).
As entradas de vídeo se beneficiam de convoluções 3D e compressão temporal, enquanto a codificação espacial é tratada usando 2D-RoPE e interpolação bicúbica de embeddings posicionais absolutos.
Uma característica técnica importante é o suporte do sistema para resoluções de imagem e proporções de aspecto arbitrárias, incluindo entradas panorâmicas amplas de até 200:1.
Além da análise estática de imagens e documentos, o GLM-4.6V pode ingerir sequências temporais de quadros de vídeo com tokens de carimbo de data/hora explícitos, permitindo um raciocínio temporal robusto.
No lado da decodificação, o modelo oferece suporte à geração de tokens alinhados com protocolos de chamada de função, permitindo raciocínio estruturado em texto, imagem e saídas de ferramentas. Isso é suportado por vocabulário estendido de tokenizer e modelos de formatação de saída para garantir API consistente ou compatibilidade de agente.
Uso de ferramenta multimodal nativa
O GLM-4.6V introduz chamadas de funções multimodais nativas, permitindo que recursos visuais – como capturas de tela, imagens e documentos – sejam passados diretamente como parâmetros para ferramentas. Isso elimina a necessidade de conversões intermediárias somente de texto, que historicamente introduziram perda e complexidade de informações.
O mecanismo de invocação da ferramenta funciona bidirecionalmente:
-
As ferramentas de entrada podem receber imagens ou vídeos diretamente (por exemplo, páginas de documentos para cortar ou analisar).
-
Ferramentas de saída, como renderizadores de gráficos ou utilitários de instantâneos da web, retornam dados visuais, que o GLM-4.6V integra diretamente na cadeia de raciocínio.
Na prática, isso significa que o GLM-4.6V pode completar tarefas como:
-
Gerando relatórios estruturados a partir de documentos de formatos mistos
-
Realização de auditoria visual de imagens candidatas
-
Cortar automaticamente figuras de papéis durante a geração
-
Conduzindo pesquisas visuais na web e respondendo a consultas multimodais
Benchmarks de alto desempenho em comparação com outros modelos de tamanho semelhante
O GLM-4.6V foi avaliado em mais de 20 benchmarks públicos, abrangendo VQA geral, compreensão de gráficos, OCR, raciocínio STEM, replicação de front-end e agentes multimodais.
De acordo com o gráfico de benchmark divulgado pela Zhipu AI:
-
GLM-4.6V (106B) atinge pontuações SoTA ou quase SoTA entre modelos de código aberto de tamanho comparável (106B) em MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench e muito mais.
-
O GLM-4.6V-Flash (9B) supera outros modelos leves (por exemplo, Qwen3-VL-8B, GLM-4.1V-9B) em quase todas as categorias testadas.
-
A janela de 128K tokens do modelo 106B permite superar modelos maiores como Step-3 (321B) e Qwen3-VL-235B em tarefas de documentos de contexto longo, resumo de vídeo e raciocínio multimodal estruturado.
Exemplos de pontuações da tabela de classificação incluem:
-
MathVista: 88,2 (GLM-4,6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)
-
WebVoyager: 81,0 vs. 68,4 (Qwen3-VL-8B)
-
Teste Ref-L4: 88,9 vs. 89,5 (GLM-4,5V), mas com melhor fidelidade de aterramento em 87,7 (Flash) vs.
Ambos os modelos foram avaliados usando o backend de inferência vLLM e suportam SGLang para tarefas baseadas em vídeo.
Automação de front-end e fluxos de trabalho de longo contexto
A Zhipu AI enfatizou a capacidade do GLM-4.6V de oferecer suporte a fluxos de trabalho de desenvolvimento de front-end. O modelo pode:
-
Replique HTML/CSS/JS com precisão de pixels a partir de capturas de tela da IU
-
Aceite comandos de edição de linguagem natural para modificar layouts
-
Identifique e manipule visualmente componentes específicos da UI
Esse recurso é integrado a uma interface de programação visual ponta a ponta, onde o modelo itera no layout, na intenção do design e no código de saída usando seu entendimento nativo de capturas de tela.
Em cenários de documentos longos, o GLM-4.6V pode processar até 128.000 tokens – permitindo uma única passagem de inferência:
-
150 páginas de texto (entrada)
-
200 apresentações de slides
-
Vídeos de 1 hora
A Zhipu AI relatou o uso bem-sucedido do modelo na análise financeira em corpora de vários documentos e no resumo de transmissões esportivas completas com detecção de eventos com registro de data e hora.
Treinamento e aprendizagem por reforço
O modelo foi treinado usando pré-treinamento em vários estágios seguido de ajuste fino supervisionado (SFT) e aprendizagem por reforço (RL). As principais inovações incluem:
-
Amostragem Curricular (RLCS): ajusta dinamicamente a dificuldade das amostras de treinamento com base no progresso do modelo
-
Sistemas de recompensa multidomínio: verificadores específicos de tarefas para STEM, raciocínio gráfico, agentes GUI, controle de qualidade de vídeo e aterramento espacial
-
Treinamento com reconhecimento de função: usa tags estruturadas (por exemplo, , , ) para alinhar o raciocínio e a formatação da resposta
O pipeline de aprendizagem por reforço enfatiza recompensas verificáveis (RLVR) em vez de feedback humano (RLHF) para escalabilidade e evita perdas de KL/entropia para estabilizar o treinamento em domínios multimodais
Preços (API)
A Zhipu AI oferece preços competitivos para a série GLM-4.6V, com o modelo principal e sua variante leve posicionados para alta acessibilidade.
-
GLM-4.6V: US$ 0,30 (entrada) / US$ 0,90 (saída) por 1 milhão de tokens
-
GLM-4.6V-Flash: Grátis
Em comparação com os principais LLMs com capacidade de visão e com foco no texto, o GLM-4.6V está entre os mais econômicos para raciocínio multimodal em escala. Abaixo está um instantâneo comparativo dos preços entre os fornecedores:
USD por 1 milhão de tokens – classificado como menor → maior custo total
|
Modelo |
Entrada |
Saída |
Custo total |
Fonte |
|
Qwen3 Turbo |
US$ 0,05 |
US$ 0,20 |
US$ 0,25 |
|
|
ERNIE 4.5 Turbo |
US$ 0,11 |
US$ 0,45 |
US$ 0,56 |
|
|
GLM-4.6V |
US$ 0,30 |
US$ 0,90 |
US$ 1,20 |
|
|
Grok 4.1 Rápido (raciocínio) |
US$ 0,20 |
US$ 0,50 |
US$ 0,70 |
|
|
Grok 4.1 Rápido (sem raciocínio) |
US$ 0,20 |
US$ 0,50 |
US$ 0,70 |
|
|
deepseek-chat (V3.2-Exp) |
US$ 0,28 |
US$ 0,42 |
US$ 0,70 |
|
|
raciocinador de busca profunda (V3.2-Exp) |
US$ 0,28 |
US$ 0,42 |
US$ 0,70 |
|
|
Qwen 3 Plus |
US$ 0,40 |
US$ 1,20 |
US$ 1,60 |
|
|
ERNIE 5.0 |
US$ 0,85 |
US$ 3,40 |
US$ 4,25 |
|
|
Qwen Max |
US$ 1,60 |
US$ 6,40 |
US$ 8,00 |
|
|
GPT-5.1 |
US$ 1,25 |
US$ 10,00 |
US$ 11,25 |
|
|
Gêmeos 2.5 Pro (≤200K) |
US$ 1,25 |
US$ 10,00 |
US$ 11,25 |
|
|
Gêmeos 3 Pro (≤200K) |
US$ 2,00 |
US$ 12,00 |
US$ 14,00 |
|
|
Gêmeos 2.5 Pro (>200K) |
US$ 2,50 |
US$ 15,00 |
US$ 17,50 |
|
|
Grok 4 (0709) |
US$ 3,00 |
US$ 15,00 |
US$ 18,00 |
|
|
Gêmeos 3 Pro (>200K) |
US$ 4,00 |
US$ 18,00 |
US$ 22,00 |
|
|
Fechar Trabalho 4.1 |
US$ 15,00 |
US$ 75,00 |
US$ 90,00 |
Versões Anteriores: Série GLM‑4.5 e Aplicativos Empresariais
Antes do GLM‑4.6V, a Z.ai lançou a família GLM‑4.5 em meados de 2025, estabelecendo a empresa como um sério concorrente no desenvolvimento de LLM de código aberto.
O carro-chefe GLM‑4.5 e seu irmão menor, GLM‑4.5‑Air, suportam raciocínio, uso de ferramentas, codificação e comportamentos de agente, ao mesmo tempo que oferecem forte desempenho em benchmarks padrão.
Os modelos introduziram modos de raciocínio duplo (“pensar” e “não pensar”) e puderam gerar automaticamente apresentações completas em PowerPoint a partir de um único prompt – um recurso posicionado para uso em relatórios corporativos, educação e fluxos de trabalho de comunicação interna. A Z.ai também ampliou a série GLM‑4.5 com variantes adicionais, como GLM‑4.5‑X, AirX e Flash, visando inferência ultrarrápida e cenários de baixo custo.
Juntos, esses recursos posicionam a série GLM‑4.5 como uma alternativa econômica, aberta e pronta para produção para empresas que precisam de autonomia na implantação de modelos, gerenciamento do ciclo de vida e pipeline de integração
Implicações no ecossistema
O lançamento do GLM-4.6V representa um avanço notável na IA multimodal de código aberto. Embora grandes modelos de linguagem de visão tenham proliferado no ano passado, poucos oferecem:
-
Uso de ferramenta visual integrada
-
Geração multimodal estruturada
-
Memória orientada a agente e lógica de decisão
A ênfase da Zhipu AI em “fechar o ciclo” da percepção à ação por meio da chamada de função nativa marca um passo em direção a sistemas multimodais de agência.
A arquitetura e o pipeline de treinamento do modelo mostram uma evolução contínua da família GLM, posicionando-a competitivamente ao lado de ofertas como GPT-4V da OpenAI e Gemini-VL do Google DeepMind.
Conclusão para líderes empresariais
Com o GLM-4.6V, a Zhipu AI apresenta um VLM de código aberto capaz de usar ferramentas visuais nativas, raciocínio de longo contexto e automação de front-end. Ele estabelece novos padrões de desempenho entre modelos de tamanho semelhante e fornece uma plataforma escalável para a construção de sistemas de IA multimodais e agentes..
