Por que seu próximo laptop terá um NPU, assim como seu telefone

Benchmarks do iPhone 16 Pro Max: mais rápido que o Android?

27 de setembro de 2024

As respostas inteligentes do Gmail ficaram mais longas, mas há um problema ($)

27 de setembro de 2024

Robert Triggs / Autoridade Android

Se você está avaliando a compra de um novo laptop, sem dúvida percebeu que eles estão cada vez mais ostentando recursos de NPU que se parecem muito com o hardware que vimos nos melhores smartphones há vários anos. . O fator determinante é o impulso para que os laptops alcancem os recursos de IA móvel, incorporando-os com recursos avançados de IA, como o Copilot da Microsoft, que pode ser executado com segurança no dispositivo sem a necessidade de uma conexão com a Internet. Então, aqui está tudo o que você precisa saber sobre NPUs, por que seu próximo laptop poderá ter um e se você deve ou não comprar um.

Você está interessado nos recursos de IA de laptops?

732 votos

O que é uma NPU?

NPU é um acrônimo para Unidade de Processamento Neural. NPUs são dedicadas à execução de funções matemáticas associadas a tarefas de rede neural/aprendizado de máquina/IA. Embora possam ser chips independentes, eles estão cada vez mais integrados diretamente em um sistema no chip (SoC) junto com componentes de CPU e GPU mais familiares.

As NPUs são dedicadas a acelerar o aprendizado de máquina, também conhecido como tarefas de IA.

NPUs vêm em vários formatos e tamanhos e geralmente são chamados de algo um pouco diferente dependendo do designer do chip. Você já encontrará diferentes modelos espalhados pelo cenário dos smartphones. A Qualcomm tem Hexagon dentro de seus processadores Snapdragon, o Google tem suas TPUs para nuvem e seus chips Tensor móveis, e a Samsung tem sua própria implementação para Exynos.

A ideia agora está decolando também no espaço de laptops e PCs. Por exemplo, há o Neural Engine dentro do mais recente Apple M4, os recursos Hexagon da Qualcomm na plataforma Snapdragon X Elite, e a AMD e a Intel começaram a integrar NPUs em seus chipsets mais recentes. Embora não sejam exatamente iguais, as GPUs da NVIDIA confundem os limites, dadas as suas impressionantes capacidades de processamento de números. As NPUs estão cada vez mais em toda parte.

Por que os gadgets precisam de um NPU?

Processamento de transcrição Samsung Galaxy S24 GalaxyAI

Robert Triggs / Autoridade Android

Como mencionamos, os NPUs são desenvolvidos especificamente para lidar com cargas de trabalho de aprendizado de máquina (junto com outras tarefas matemáticas pesadas). Em termos gerais, um NPU é um componente muito útil, talvez até essencial, para executar IA no dispositivo, e não na nuvem. Como você sem dúvida percebeu, a IA parece estar em toda parte atualmente, e incorporar suporte diretamente nos produtos é um passo fundamental nessa jornada.

Muito do processamento de IA atual é feito na nuvem, mas isso não é ideal por vários motivos. O primeiro são os requisitos de latência e rede; você não pode acessar as ferramentas quando estiver off-line ou pode ter que esperar longos períodos de processamento durante os horários de pico. O envio de dados pela internet também é menos seguro, o que é um fator muito importante quando se utiliza IA que tem acesso às suas informações pessoais, como o Recall da Microsoft.

Simplificando, é preferível executar no dispositivo. No entanto, as tarefas de IA exigem muita computação e não funcionam bem em hardware tradicional. Você deve ter notado isso se tentou gerar imagens via Stable Diffusion em seu laptop. Pode ser dolorosamente lento para tarefas mais avançadas, embora as CPUs possam executar perfeitamente uma série de tarefas de IA “mais simples”.

As NPUs permitem que tarefas de IA sejam executadas no dispositivo, sem a necessidade de conexão com a Internet.

A solução é adotar hardware dedicado para agilizar essas tarefas avançadas. Você pode ler mais sobre o que os NPUs fazem posteriormente neste artigo, mas o TLDR é que eles executam tarefas de IA com mais rapidez e eficiência do que sua CPU pode fazer sozinha. Seu desempenho costuma ser cotado em trilhões de operações por segundo (TOPS), mas essa não é uma métrica muito útil porque não informa exatamente o que cada operação está fazendo. Em vez disso, muitas vezes é melhor procurar números que indiquem a rapidez com que é necessário processar tokens para modelos grandes.

Falando em TOPS, os primeiros NPUs de smartphones e laptops são avaliados em dezenas de TOPS. Em termos gerais, isso significa que eles podem acelerar tarefas básicas de IA, como detecção de objetos de câmera para aplicar desfoque bokeh ou resumir texto. Se você deseja executar um modelo de linguagem grande ou usar IA generativa para produzir mídia rapidamente, você precisará de um acelerador/GPU mais poderoso na faixa de centenas ou milhares de TOPS.

Um NPU é diferente de uma CPU?

Uma unidade de processamento neural é bastante diferente de uma unidade central de processamento devido ao tipo de carga de trabalho para a qual foi projetada. Uma CPU típica em seu laptop ou smartphone é de uso bastante geral para atender a uma ampla gama de aplicações, suportando amplos conjuntos de instruções (funções que pode executar), várias maneiras de armazenar em cache e recuperar funções (para acelerar loops repetidos) e grandes janelas de execução fora de ordem (para que possam continuar fazendo as coisas em vez de esperar).

No entanto, as cargas de trabalho de machine learning são diferentes e não precisam de tanta flexibilidade. Eles são muito mais matemáticos para começar, muitas vezes exigindo instruções repetitivas e computacionalmente caras, como multiplicação de matrizes e acesso muito rápido a grandes conjuntos de memória. Eles também operam frequentemente em formatos de dados incomuns, como números inteiros de dezesseis, oito ou até quatro bits. Em comparação, sua CPU típica é construída em torno de números inteiros de 64 bits e matemática de ponto flutuante (geralmente com instruções adicionais adicionadas).

Uma NPU é mais rápida e eficiente em termos de energia na execução de tarefas de IA em comparação com uma CPU.

Construir uma NPU dedicada à computação paralela em massa dessas funções específicas resulta em desempenho mais rápido e menos desperdício de energia em recursos ociosos que não são úteis para a tarefa em questão. No entanto, nem todos os NPUs são iguais. Mesmo fora de suas capacidades de processamento de números, eles podem ser construídos para suportar diferentes tipos e operações inteiras, o que significa que alguns NPUs funcionam melhor em determinados modelos. Alguns NPUs de smartphones, por exemplo, rodam nos formatos INT8 ou mesmo INT4 para economizar no consumo de energia, mas você obterá melhor precisão com um modelo FP16 mais avançado, mas que consome muita energia. Se você precisa de computação realmente avançada, GPUs dedicadas e aceleradores externos ainda são mais poderosos e diversificados em formatos do que NPUs integrados.

Como backup, as CPUs podem executar tarefas de aprendizado de máquina, mas geralmente são muito mais lentas. CPUs modernas da Arm, Apple, Intel e AMD suportam as instruções matemáticas necessárias e alguns dos níveis de quantização menores. Seu gargalo geralmente é quantas dessas funções eles podem executar em paralelo e a rapidez com que podem mover dados para dentro e para fora da memória, que é para o que as NPUs são projetadas especificamente.

Devo comprar um laptop com NPU?

Perfil lateral fino Huawei MateBook X Pro 2024

Robert Triggs / Autoridade Android

Embora longe de serem essenciais, especialmente se você não se importa com a tendência da IA, os NPUs são necessários para alguns dos recursos mais recentes que você encontrará no espaço móvel e de PC.

O Copilot Plus da Microsoft, por exemplo, especifica um NPU com 40TOPS de desempenho como requisito mínimo, necessário para usar o Windows Recall. Infelizmente, os chips Meteor Lake da Intel e Ryzen 8000 da AMD encontrados nos laptops atuais (no momento em que este artigo foi escrito) não atendem a esse requisito. No entanto, os recém-anunciados chips Stix Point Ryzen da AMD são compatíveis. Você não terá que esperar muito por uma alternativa x64 aos laptops Snapdragon X Elite baseados em Arm, já que os laptops com Stix Point são esperados no primeiro semestre de 2024.

Ferramentas populares de classe de PC, como Audacity, DaVinci Resolve, Zoom e muitas outras, estão cada vez mais experimentando recursos de IA mais exigentes no dispositivo. Embora não sejam essenciais para cargas de trabalho principais, esses recursos estão se tornando cada vez mais populares, e os recursos de IA devem ser levados em consideração em sua próxima compra se você usar essas ferramentas regularmente.

O CoPilot Plus só será suportado em portáteis com um NPU suficientemente potente.

Quando se trata de smartphones, os recursos e capacidades variam um pouco mais de acordo com a marca. Por exemplo, o Galaxy AI da Samsung só funciona em seus poderosos aparelhos Galaxy S. Ele não trouxe recursos como suporte de bate-papo ou intérprete para o Galaxy A55 acessível, provavelmente porque não possui o poder de processamento necessário. Dito isto, alguns dos recursos da Samsung também funcionam na nuvem, mas provavelmente não são financiados com compras mais acessíveis. Falando nisso, o Google é igualmente razoável em termos de consistência de recursos. Você encontrará os melhores extras de IA do Google no Pixel 8 Pro, como Video Boost – ainda assim, o Pixel 8 e até mesmo o acessível 8a executam muitas das mesmas ferramentas de IA.

Em última análise, a IA está aqui e os NPUs são a chave para aproveitar recursos no dispositivo que não podem ser executados em hardware mais antigo. Dito isto, ainda estamos nos primórdios das cargas de trabalho de IA, especialmente no espaço dos laptops. Os requisitos de software e as capacidades de hardware só crescerão nos próximos anos. Nesse sentido, esperar até que a poeira baixe antes de saltar não fará mal.