![Córtex do Braço A925 Córtex do Braço A925](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
O desenvolvimento de chipsets móveis continua avançando em ritmo acelerado, trazendo-nos desempenho superior em jogos, acelerando os mais recentes recursos de IA e PCs com maior eficiência energética. Arm, uma das empresas que traçam o caminho, anunciou sua seleção de núcleos de CPU e GPU para 2024 para potencializar esses casos de uso crescentes.
Alguns (mas não todos) dos smartphones de última geração da próxima geração de 2025 serão equipados com os núcleos recém-anunciados da Arm. A Arm tem divulgado menos detalhes sobre suas tecnologias de CPU e GPU nos últimos anos, mas vamos examinar os anúncios mais detalhadamente para ver o que podemos esperar.
O grande: núcleo Arm Cortex-X925
A principal CPU do portfólio 2024 da Arm é a poderosa Arm Cortex-X925. Apesar da mudança de nome, este é o sucessor direto do Armv9.2 Cortex-X4 da última geração encontrado em processadores como o Qualcomm Snapdragon 8 Gen 3. Esperávamos que esse núcleo se chamasse Cortex-X5, mas Arm mudou o apelido para igualar outros produtos do portfólio deste ano.
Os números principais do Arm Cortex-X925 incluem uma melhoria de IPC de desempenho 15% maior em relação ao Cortex-X4. Isso se estende para 36%, uma vez que os ganhos da mudança para a fabricação de 3 nm, velocidades de clock mais altas superiores a 3,6 GHz e caches maiores são levados em consideração. O desempenho da IA apresenta ganhos potenciais ainda maiores, executando alguns modelos 46% mais rápido na CPU do que o X4 . O resultado final é que os recursos da CPU de núcleo único terão um aumento significativo na próxima geração.
Córtex-X925 | Braço Cortex-X4 | Braço Cortex-X3 | Braço Cortex-X2 | |
---|---|---|---|---|
Velocidade máxima do clock |
Córtex-X925
~3,6 GHz |
Braço Cortex-X4
~3,4 GHz |
Braço Cortex-X3
~3,25 GHz |
Braço Cortex-X2
~3,0 GHz |
Largura de decodificação |
Córtex-X925
10 instruções |
Braço Cortex-X4
10 instruções |
Braço Cortex-X3
6 instruções |
Braço Cortex-X2
5 instruções |
Profundidade do Pipeline de Despacho |
Córtex-X925
10 ciclos |
Braço Cortex-X4
10 ciclos |
Braço Cortex-X3
11 ciclos para instruções |
Braço Cortex-X2
10 ciclos |
Janela de execução OoO |
Córtex-X925
1.500 |
Braço Cortex-X4
768 |
Braço Cortex-X3
640 |
Braço Cortex-X2
448 |
Unidades de Execução |
Córtex-X925
(presumido)
6x ALU (alguns de 2 ciclos) 2x ALU/MAC 2x ALU/MAC/DIV 3x Filial |
Braço Cortex-X4
6x ALU
1x ALU/MAC 1x ALU/MAC/DIV 3x Filial |
Braço Cortex-X3
4x ALU
1x ALU/MUL 1x ALU/MAC/DIV 2x Filial |
Braço Cortex-X2
2x ALU
1x ALU/MAC 1x ALU/MAC/DIV 2x Filial |
Arquitetura |
Córtex-X925
ARMv9.2 |
Braço Cortex-X4
ARMv9.2 |
Braço Cortex-X3
ARMv9 |
Braço Cortex-X2
ARMv9 |
Os ganhos de 3nm são uma parte importante do aumento de desempenho esperado para esta geração. Arm trabalhou extensivamente para otimizar seu design para seus parceiros em processos FinFET e GAA (também conhecidos como TSMC e Samsung). Isso deixa a melhoria de 15% em relação ao modelo anterior, o que se resume a várias mudanças importantes na microarquitetura do X925.
No núcleo de processamento, por exemplo, o X925 agora tem seis unidades SIMD (os poderosos processadores de números que computam em lote matemática de ponto flutuante e cargas de trabalho de IA) em vez de quatro, permitindo-lhes fazer matemática mais pesada em paralelo. Isso provavelmente é responsável pela maior parte do aumento de desempenho de IA/ML do núcleo. Há também uma unidade adicional de multiplicação de números inteiros e uma unidade extra de comparação de ponto flutuante, que novamente aumenta a capacidade de processamento de números do núcleo quando totalmente alimentado. Arm está relutante em discutir o tamanho da área da matriz atualmente, mas o X925 deve estar ficando bem grande.
![Cluster de referência de CPU Arm Client 2024 Cluster de referência de CPU Arm Client 2024](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/1716998255_502_Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
Robert Triggs / Autoridade Android
Outra mudança interessante é que algumas das ALUs foram trocadas para versões dedicadas de instrução de 2 ciclos. Isso ajuda a evitar travamentos nas unidades regulares de 1 ciclo, mas presumivelmente significa que essas ALUs não podem realizar algumas das aritméticas mais simples. Este parece ser o tipo de mudança de design que apenas dados intrincados de casos de uso fariam alusão.
O envio de instruções permanece com 10 larguras, mas Arm dobrou o número máximo de instruções em vôo do X925, agora colossais 1.500. Da mesma forma, há o dobro da largura de banda do cache de instruções L1 e o dobro do tamanho da tabela de pesquisa de instruções L1 para acelerar a busca de instruções. Enquanto isso, o backend consiste em um pipeline de carga extra para trazer mais dados da memória. Em outras palavras, há muitas instruções fora de ordem circulando para manter ocupados os núcleos de processamento de números.
Isso é muito jargão, mas os temas são muito familiares dos anos anteriores – um front-end cada vez mais amplo alimentando um mecanismo de execução cada vez mais insaciável. Nesse sentido, o X925 é uma atualização do X4, e não uma reformulação completa. Mesmo assim, o desempenho dará um salto sólido novamente em 2025, embora uma boa parte dos benefícios também venha da mudança para 3 nm.
Arm Cortex-A725 e A520 com eficiência energética
Infelizmente, Arm não forneceu tantos detalhes sobre o igualmente importante Cortex-A725 – o novo núcleo intermediário que formará a espinha dorsal dos próximos SoCs móveis.
Arm afirma que o A725 é 25% mais eficiente que o A720 e oferece a opção de desempenho de pico mais alto, se necessário. Novamente, porém, isso implica a mudança para 3nm, e Arm não nos deu uma métrica padrão para ganhos de desempenho IPC. No entanto, ele afirma um aumento de 20% no tráfego L3, o que ajuda a obter algum desempenho extra.
No nível da microarquitetura, a Arm aumentou o buffer de reordenação e o tamanho das filas de emissão de instruções, melhorando o rendimento. Uma nova configuração de cache L2 de 1 MB também permite que o núcleo atinja um nível de desempenho mais alto. Mas se for isso, o A725 é uma pequena revisão do A720, que já era uma otimização do núcleo A710 de 2022.
![Gráfico de eficiência do Arm Cortex A725 Gráfico de eficiência do Arm Cortex A725](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/1716998255_364_Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
Robert Triggs / Autoridade Android
Isso nos leva ao Cortex-A520 atualizado, certamente o modelo menos interessante do trio de CPUs deste ano. A arquitetura central permanece inalterada. Em vez disso, a Arm otimizou a pegada do A520 para os próximos processos de 3 nm, resultando em ganhos de eficiência energética de 15%.
Olhando para as curvas de eficiência energética da Arm, esta geração tem um cruzamento ainda maior entre o Cortex-A725 e o A520. Embora o A520 ainda possa atingir os níveis de energia mais baixos para tarefas de espera e de baixa freqüência, o A725 pode oferecer muito mais desempenho com a mesma potência de um A520 no máximo. Em outras palavras, muitas tarefas são executadas com muito mais rapidez e eficiência no A725. Não é de admirar que o design de referência 2024 da Arm sugira apenas dois A520, reduzindo ainda mais o número de núcleos pequenos em relação ao que vemos nos chipsets da geração atual.
Jogos muito melhorados com o Immortalis G925
A Arm também continua a atualizar sua linha de GPUs, com Immortalis G925, Mali G725 e Mali G625. Tal como aconteceu com a gama do ano passado, os parceiros de silício precisam de utilizar uma contagem de núcleos maior para garantir um desempenho robusto de traçado de raios e alavancar a marca Immortalis. Dez a 24 núcleos, contra 16 da última geração, são classificados como Immortalis, seis a nove para uma implementação G725 e um a cinco núcleos para uma configuração econômica do G625.
Independentemente da configuração, cada núcleo G925 promete uma redução de 30% no consumo de energia quando construído em 3nm, desempenho aprimorado de até 37% e um ganho impressionante de 52% em corridas de raios em relação ao Immortalis G720 da última geração. Essa última métrica tem uma grande ressalva: exige que os desenvolvedores aproveitem novas APIs para designar alvos como “objetos complexos”, que o G925 então rastreia com fidelidade reduzida. Pense em folhas ou grama que são muito caras para calcular individualmente, mas que os jogadores não perceberão se o raio traçado for com menor precisão. É uma ideia interessante, mas depende inteiramente do conhecimento dos desenvolvedores e da codificação.
![Desempenho do braço imortal G925 Desempenho do braço imortal G925](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/1716998256_928_Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
Em jogos do mundo real, Arm está reivindicando ganhos ainda mais significativos com 14 núcleos Immortalis G925 contra 12 G720 mais antigos. Claro, essa não é uma comparação igual, então aceite-a com uma pitada de sal. Mas dando a Arm o benefício da dúvida, eu acho que você pode colocar 14 núcleos G925 no espaço de 12 dos G720 anteriores, mas isso é inteiramente minha especulação.
Ainda assim, por apenas mais dois núcleos, Arm apregoa uma melhoria de desempenho de 72% em Call of Duty, 49% em Genshin Impact, 46% em Diablo Immortal e um ganho de 29% em Fortnite. A chave está na nova técnica Fragment Prepass do núcleo. O TLDR é que isso melhora enormemente a seleção de objetos ocultos (pense em um jogador ou objeto escondido atrás de uma parede), reduzindo a carga da CPU para esses grandes ganhos de desempenho. Jogos com geometria complexa são os que mais se beneficiam, daí as diferenças de desempenho entre CoD e Fortnite.
Se você quiser uma explicação mais aprofundada, Arm substituiu a técnica tradicional de remoção de superfície oculta do buffer Z (HSR), como eliminação direta de pixels ou reordenação primitiva, por sua tecnologia de pré-passagem de fragmentos. A principal diferença é que ele elimina a necessidade de reordenar o buffer Z (buffer de profundidade) para tomar decisões de seleção, reduzindo os ciclos de CPU do driver em até 43% por thread. Tudo isso é feito em hardware, o que significa que não há sobrecarga para os desenvolvedores, mas não beneficia todos os jogos igualmente.
E quanto à IA?
![Aprendizado de máquina do braço imortal G925 Aprendizado de máquina do braço imortal G925](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/1716998256_504_Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
Nenhum anúncio de 2024 está completo sem IA, e Arm tinha muito a dizer aqui, apesar de não ter um acelerador de IA dedicado para aumentar suas peças mais tradicionais de CPU e GPU. Em vez disso, a Arm está apostando no apelo universal e mais amigável ao desenvolvedor da CPU e, em menor grau, da GPU para promover seus recursos de IA.
Por exemplo, Arm aponta que a maioria dos aplicativos Android de IA de terceiros são executados na CPU em vez de em um acelerador, já que poucos investiram os recursos de desenvolvimento para suportar as inúmeras plataformas API SoC. Em vez de uma API mais universal, a Arm aposta na CPU para continuar sendo um componente essencial para IA. Dito isso, é muito mais fácil dizer isso quando você não tem experiência no mercado de aceleradores de IA móvel.
Ainda assim, Arm tem alguns números de desempenho para apresentar aqui. O Arm Cortex-X925 apresenta um tempo de obtenção do primeiro token 42% mais rápido com um modelo LLaMA 3 de 8 bilhões e 46% mais rápido para um modelo Phi 3 de 3,8 bilhões. A inferência de CPU AI também aumentou 59% em comparação com o Cortex-X4, com os recursos de inferência de GPU recebendo um aumento de 36% em relação à plataforma de referência do ano passado. Da mesma forma, a nova GPU (em uma configuração de 14 núcleos versus 12 núcleos) é até 50% mais rápida no processamento de linguagem natural, 41% mais rápida na segmentação de imagens e 32% mais rápida na conversão de fala em texto.
Todas essas melhorias são muito bem-vindas para ajudar a tornar os aplicativos de IA mais responsivos, mas vale lembrar que nem uma CPU nem uma GPU são tão rápidas e eficientes quanto um acelerador de IA dedicado.
O que esperar dos produtos da próxima geração
![Tela inicial do Samsung Galaxy S24 em mãos Tela inicial do Samsung Galaxy S24 em mãos](https://i0.wp.com/rafasgeek.com.br/wp-content/uploads/2024/05/1716998256_40_Mergulhe-profundamente-nos-novos-Cortex-G925-e-Immortalis-G952-da-Arm-para.jpg?ssl=1)
Robert Triggs / Autoridade Android
Os núcleos de próxima geração da Arm são destinados aos principais smartphones de 2025, com a Samsung e a MediaTek provavelmente sendo os maiores fornecedores de silício móvel a aproveitar essas tecnologias de ponta. A Qualcomm está migrando para um novo núcleo de CPU personalizado para o Snapdragon 8 Gen 4, o que significa que a maioria dos principais telefones Android em 2025 provavelmente não usará Arm Cortex-X925 ou Immortalis-G925.
Da mesma forma, a próxima grande onda de laptops Windows on Arm será equipada com a plataforma Snapdragon X Elite da Qualcomm. Novamente, esta plataforma usa núcleos de CPU personalizados em vez do Arm’s Cortex. Arm não tinha muito a dizer sobre planos específicos para PCs baseados em Arm, provavelmente devido ao acordo de exclusividade da Qualcomm com a Microsoft, que supostamente terminará em 2024. Ainda assim, é perfeitamente possível que vejamos outros fornecedores de silício usando Arm Cortex-X núcleos, possivelmente o novo X925, para chipsets rivais em algum momento de 2025. Por exemplo, Arm prevê um chip de PC com até 12 núcleos de CPU Cortex-X925 para levar o desempenho muito além do móvel.
Embora a Arm tenha anunciado suas mais recentes tecnologias de cliente no primeiro semestre do ano, os chipsets dos parceiros serão anunciados perto do final de 2024, no mínimo. Espera-se que os smartphones equipados com Cortex-X925 e/ou Immortalis-G925 cheguem às mãos dos consumidores no início de 2025.