O que acabou de acontecer? A Amazon anunciou que está migrando seu processamento de inteligência artificial para chips AWS Inferentia personalizados. Isso significa que os maiores serviços de inferência da Amazon, como o assistente virtual Alexa, serão processados em silício especializado e mais rápido em vez de GPUs multifuncionais.
A Amazon já transferiu cerca de 80% do processamento do Alexa para as instâncias do Elastic Compute Cloud (EC2) Inf1, que usam os novos chips AWS Inferentia. Em comparação com as instâncias G4, que usavam GPUs tradicionais, as instâncias Inf1 aumentam a taxa de transferência em 30% e os custos caem em 45%. A Amazon avalia que eles são as melhores instâncias do mercado para inferir linguagem natural e cargas de trabalho de processamento de voz.
Alexa funciona assim: a caixa do alto-falante real (ou cilindro, como pode ser) basicamente não faz nada, enquanto os processadores AWS na nuvem fazem tudo. Ou, para ser mais técnico … o sistema entra em ação assim que a palavra de despertar é detectada pelo chip no dispositivo do Echo. Ele começa a transmitir o áudio para a nuvem em tempo real. Em um data center em algum lugar, o áudio é transformado em texto (este é um exemplo de inferência). Então, o significado é retirado do texto (outro exemplo de inferência). Todas as ações necessárias são concluídas, como obter as informações meteorológicas do dia.
Assim que Alexa tiver concluído sua solicitação, ela precisará comunicar a você a resposta. O que ela deve dizer é escolhido a partir de um script modular. Em seguida, o script é transformado em um arquivo de áudio (outro exemplo de inferência) e enviado ao seu dispositivo Echo. O Echo reproduz o arquivo e você decide trazer um guarda-chuva para trabalhar com você.
Evidentemente, inferir é uma grande parte do trabalho. Não é surpreendente que a Amazon tenha investido milhões de dólares para fazer os chips de inferência perfeitos.
Falando nisso, os chips Inferentia são compostos por quatro NeuronCores. Cada um implementa um “motor de multiplicação de matriz de matriz sistólica de alto desempenho”. Mais ou menos, cada NeuronCore é composto por um grande número de pequenas unidades de processamento de dados (DPUs) que processam dados de forma linear e independente. Cada chip Inferentia também possui um cache enorme, o que melhora as latências.