Close Menu
    What's Hot

    As melhores ofertas da Black Friday – compre iPads baratos, TVs de £ 89 e banda larga gratuitamente

    novembro 8, 2025

    Minha conta da Virgin Media dobrou instantaneamente durante a noite, não deixe isso acontecer com você

    novembro 8, 2025

    Terminal-Bench 2.0 é lançado junto com Harbour, uma nova estrutura para testar agentes em contêineres

    novembro 8, 2025
    Facebook X (Twitter) Instagram
    Rafas Geek
    • Tech

      As melhores ofertas da Black Friday – compre iPads baratos, TVs de £ 89 e banda larga gratuitamente

      novembro 8, 2025

      Minha conta da Virgin Media dobrou instantaneamente durante a noite, não deixe isso acontecer com você

      novembro 8, 2025

      Sky oferece o iPhone da Apple pelo preço “mais baixo de todos os tempos”, não é de admirar que esteja vendendo rápido

      novembro 7, 2025

      Sua banda larga Virgin Media é gratuita até o próximo ano graças à Black Friday

      novembro 6, 2025

      É hora de abandonar seu Galaxy Watch? Acordo surpresa torna a atualização final mais acessível

      novembro 6, 2025
    • News

      A atualização ES-DE 3.4.0 adiciona suporte PS3, controle de tempo e muito mais

      novembro 7, 2025

      NOOK GlowLight 4 pousa em Ocean Teal antes da próxima atualização do e-reader

      novembro 7, 2025

      Pesquisa revela que você não pode viver sem a Disney no YouTube TV

      novembro 7, 2025

      Não perca esta oferta imbatível do Nothing Headphone 1!

      novembro 7, 2025

      A nova direção ‘ousada’ da Verizon aparentemente incluirá demissões em massa

      novembro 7, 2025
    • Negócios

      Dez maneiras de melhorar seu networking

      novembro 6, 2025

      Ajude a impulsionar a descoberta das festas de fim de ano: seu guia para Amazon Ads durante a alta temporada de compras

      novembro 3, 2025

      Como os padrões de relatórios de sustentabilidade do Reino Unido afetarão a sua PME

      outubro 28, 2025

      Acordos de liquidação no processo de demissão

      outubro 24, 2025

      Um guia completo para financiamento de pequenas empresas

      outubro 22, 2025
    • Mundo

      O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

      outubro 25, 2025

      O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

      outubro 10, 2025

      Um dos melhores telefones de câmera de 2025 é obter uma sequência

      setembro 2, 2025

      O aplicativo de telefone do Google pode facilitar a retomada das chamadas

      julho 24, 2025

      O Goodwill Shopper descobre US $ 30 PC escondendo um RTX 3080 Ti e Ryzen 7

      junho 27, 2025
    • Contato
    Facebook X (Twitter) Instagram
    Rafas Geek
    AI

    Terminal-Bench 2.0 é lançado junto com Harbour, uma nova estrutura para testar agentes em contêineres

    rafasgeekBy rafasgeeknovembro 8, 2025Nenhum comentário5 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email





    Os desenvolvedores do Terminal-Bench, um conjunto de benchmark para avaliar o desempenho de agentes autônomos de IA em tarefas baseadas em terminais do mundo real, lançaram versão 2.0 ao lado Portouma nova estrutura para testar, melhorar e otimizar agentes de IA em ambientes conteinerizados.

    O lançamento duplo visa abordar pontos problemáticos de longa data no teste e otimização de agentes de IA, especialmente aqueles construídos para operar de forma autônoma em ambientes de desenvolvedor realistas.

    Com um conjunto de tarefas mais difícil e rigorosamente verificado, o Terminal-Bench 2.0 substitui a versão 1.0 como padrão para avaliar as capacidades do modelo de fronteira.

    Harbor, a estrutura de tempo de execução que o acompanha, permite que desenvolvedores e pesquisadores dimensionem avaliações em milhares de contêineres de nuvem e se integrem com agentes de código aberto e proprietários e pipelines de treinamento.

    “Harbour é o pacote que gostaríamos de ter ao fazer o Terminal-Bench," escreveu o co-criador Alex Shaw em X. "É para desenvolvedores e pesquisadores de agentes, modelos e benchmarks que desejam avaliar e melhorar agentes e modelos."

    Barra mais alta, dados mais limpos

    Terminal-Bench 1.0 teve rápida adoção após seu lançamento em maio de 2025tornando-se uma referência padrão para avaliar o desempenho do agente em todo o campo de agentes com tecnologia de IA que operam em ambientes de terminal estilo desenvolvedor. Esses agentes interagem com os sistemas por meio da linha de comando, imitando como os desenvolvedores trabalham nos bastidores da interface gráfica do usuário.

    No entanto, seu amplo escopo apresentou inconsistências. Várias tarefas foram identificadas pela comunidade como mal especificadas ou instáveis ​​devido a mudanças externas nos serviços.

    A versão 2.0 aborda esses problemas diretamente. O conjunto atualizado inclui 89 tarefas, cada uma sujeita a várias horas de validação manual e assistida por LLM. A ênfase está em tornar as tarefas solucionáveis, realistas e claramente especificadas, aumentando o limite de dificuldade e melhorando a confiabilidade e a reprodutibilidade.

    Um exemplo notável é o download-youtube tarefa, que foi removida ou refatorada na versão 2.0 devido à sua dependência de APIs instáveis ​​de terceiros.

    “Os fãs astutos do Terminal-Bench podem notar que o desempenho do SOTA é comparável ao TB1.0, apesar de afirmarmos que o TB2.0 é mais difícil”, Shaw observado em X. “Acreditamos que isso ocorre porque a qualidade da tarefa é substancialmente maior no novo benchmark.”

    Harbor: implementações unificadas em escala

    Juntamente com a atualização do benchmark, a equipe lançou Portouma nova estrutura para executar e avaliar agentes em contêineres implantados na nuvem.

    Harbour suporta infraestrutura de implementação em larga escala, com compatibilidade para grandes fornecedores como Daytona e Modal.

    Projetado para generalizar entre arquiteturas de agentes, o Harbour oferece suporte a:

    • Avaliação de qualquer agente instalável em contêiner

    • Pipelines escalonáveis ​​de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL)

    • Criação e implantação de benchmark personalizado

    • Integração total com Terminal-Bench 2.

    O Harbour foi usado internamente para executar dezenas de milhares de implementações durante a criação do novo benchmark. Agora está disponível publicamente via harbourframework.comcom documentação para teste e envio de agentes à tabela de classificação pública.

    Resultados iniciais: GPT-5 lidera no sucesso de tarefas

    Os resultados iniciais da tabela de classificação do Terminal-Bench 2.0 mostram o Codex CLI (interface de linha de comando) da OpenAI, uma variante com tecnologia GPT-5, na liderança, com uma taxa de sucesso de 49,6% – a mais alta entre todos os agentes testados até agora.

    Logo atrás estão outras variantes do GPT-5 e agentes baseados no Claude Sonnet 4.5.

    Os 5 principais resultados do agente (Terminal-Bench 2.0):

    1. Codex CLI (GPT-5) – 49,6%

    2. Codex CLI (GPT-5-Codex) – 44,3%

    3. Mãos Abertas (GPT-5) – 43,8%

    4. Terminal 2 (GPT-5-Codex) — 43,4%

    5. Terminal 2 (Claude Soneto 4,5) – 42,8%

    O agrupamento próximo entre os principais modelos indica uma competição ativa entre plataformas, sem que nenhum agente resolva mais de metade das tarefas.

    Envio e Uso

    Para testar ou enviar um agente, os usuários instalam o Harbour e executam o benchmark usando comandos CLI simples. Os envios para a tabela de classificação exigem cinco execuções de benchmark, e os resultados podem ser enviados por e-mail aos desenvolvedores junto com diretórios de empregos para validação.

    porto run -d [email protected] -m "" -um "" –n-attempts 5 –jobs-dir

    O Terminal-Bench 2.0 já está sendo integrado a fluxos de trabalho de pesquisa focados em raciocínio agente, geração de código e uso de ferramentas. De acordo com o cocriador Mike Merrill, pesquisador de pós-doutorado em Stanford, uma pré-impressão detalhada está em andamento cobrindo o processo de verificação e a metodologia de design por trás do benchmark.

    Visando a Padronização

    O lançamento combinado do Terminal-Bench 2.0 e do Harbour marca um passo em direção a uma infraestrutura de avaliação de agentes mais consistente e escalável. À medida que os agentes LLM proliferam em ambientes operacionais e de desenvolvimento, cresce a necessidade de testes controlados e reproduzíveis.

    Essas ferramentas oferecem uma base potencial para uma pilha de avaliação unificada — apoiando a melhoria de modelos, simulação de ambiente e padronização de benchmark em todo o ecossistema de IA.



    agentes contêineres estrutura Harbour junto lançado nova para TerminalBench testar uma
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    rafasgeek
    • Website

    Related Posts

    As melhores ofertas da Black Friday – compre iPads baratos, TVs de £ 89 e banda larga gratuitamente

    novembro 8, 2025

    Minha conta da Virgin Media dobrou instantaneamente durante a noite, não deixe isso acontecer com você

    novembro 8, 2025

    A nova direção ‘ousada’ da Verizon aparentemente incluirá demissões em massa

    novembro 7, 2025

    Comments are closed.

    Economy News
    Featured Markets

    As melhores ofertas da Black Friday – compre iPads baratos, TVs de £ 89 e banda larga gratuitamente

    By rafasgeeknovembro 8, 20250

    Melhores ofertas da Black Friday (Imagem: EXPRESSO) Este artigo contém links de afiliados. Receberemos uma…

    Minha conta da Virgin Media dobrou instantaneamente durante a noite, não deixe isso acontecer com você

    novembro 8, 2025

    Terminal-Bench 2.0 é lançado junto com Harbour, uma nova estrutura para testar agentes em contêineres

    novembro 8, 2025
    Top Trending
    Featured Markets

    As melhores ofertas da Black Friday – compre iPads baratos, TVs de £ 89 e banda larga gratuitamente

    By rafasgeeknovembro 8, 20250

    Melhores ofertas da Black Friday (Imagem: EXPRESSO) Este artigo contém links de…

    Featured Markets

    Minha conta da Virgin Media dobrou instantaneamente durante a noite, não deixe isso acontecer com você

    By rafasgeeknovembro 8, 20250

    Escrevo sobre tecnologia de consumo há mais de 14 anos, e um…

    AI

    Terminal-Bench 2.0 é lançado junto com Harbour, uma nova estrutura para testar agentes em contêineres

    By rafasgeeknovembro 8, 20250

    Os desenvolvedores do Terminal-Bench, um conjunto de benchmark para avaliar o desempenho…

    Subscribe to News

    Receba as últimas notícias esportivas do NewsSite sobre o mundo, esportes e política.

    Advertisement

    Todos os dias, uma nova tecnologia é lançada, e eu Rafas Geek, estou aqui para divulgar para o mundo, o que à de novo!

    Siga-nos nas redes sociais:

    Facebook X (Twitter) Instagram YouTube

    Subscribe to Updates

    Receba as últimas notícias criativas do FooBar sobre arte, design e negócios.

    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Tecnologia
    • Entretenimento
    • News
    © 2025 Rafas Geek - Tudo sobre tecnologia 👨🏻‍💻 Rafas Geek.

    Type above and press Enter to search. Press Esc to cancel.