Além dos núcleos de CPU 2023 da Arm, estamos mergulhando profundamente no que a Arm incorporou em sua arquitetura gráfica móvel de 5ª geração recentemente anunciada, que inevitavelmente alimentará futuros jogos móveis de última geração. Antes de entrar nos detalhes, a arquitetura de GPU 2023 da Arm vem em três variedades de produtos – Immortalis-G720, Mali-G720 e Mali-G620.
Como o Immortalis-G715 do ano passado, o Immortalis-G720 é o principal produto projetado com recursos de rastreamento de raios em mãos. O Mali-G720 e o G620 apresentam os mesmos recursos arquitetônicos, apenas com menos núcleos e sem ray tracing obrigatório para linhas de produtos mais acessíveis. Como nas GPUs Arm anteriores, a contagem de núcleos gráficos continua sendo a chave para dimensionar o desempenho. Portanto, espere ver o Immortalis-G720 em chipsets principais, o Mali-G720 na faixa intermediária superior e o G620 em produtos mais econômicos. A tabela abaixo destaca as principais diferenças.
Arm GPUs de 5ª geração | Imortal-G720 | Mali-G720 | Mali-G6 |
---|---|---|---|
Arm GPUs de 5ª geração
Contagem de núcleo do sombreador |
Imortal-G720
10-16 núcleos |
Mali-G720
7-9 núcleos |
Mali-G6
1-6 núcleos |
Arm GPUs de 5ª geração
Sombreamento de vértice adiado? |
Imortal-G720
Sim |
Mali-G720
Sim |
Mali-G6
Sim |
Arm GPUs de 5ª geração
Rastreamento de raio de hardware? |
Imortal-G720
Sim |
Mali-G720
Não (opcional) |
Mali-G6
Não (opcional) |
Arm GPUs de 5ª geração
Sombreamento de taxa variável? |
Imortal-G720
Sim |
Mali-G720
Sim |
Mali-G6
Sim |
Arm GPUs de 5ª geração
Fatias de cache L2 |
Imortal-G720
2 ou 4 |
Mali-G720
2 ou 4 |
Mali-G6
1, 2 ou 4 |
Os principais pontos de discussão com a arquitetura de 5ª geração da Arm incluem um ganho de desempenho de 15% por watt em relação à geração anterior, 40% menos uso de largura de banda de memória para economizar no consumo de energia e o dobro dos recursos de renderização HDR com texturização de 64 bits por pixel. Tudo isso se encaixa em um núcleo de GPU que é apenas 2% maior que a geração anterior.
A chave para esses números atraentes é, em parte, a adoção do Deferred Vertex Shading (DVS) no núcleo da GPU, tornando-o o coração da arquitetura mais recente da Arm em todos os três produtos. Vamos entender como funciona.
Sombreamento de vértice diferido explicado
O longo e curto do DVS é que ele reduz o uso da largura de banda da memória, economizando assim o importante consumo de energia da DRAM. Isso também libera memória compartilhada do sistema para acomodar geometrias mais complexas e também significa um maior orçamento de energia para potencialmente mais núcleos de GPU. Os exemplos que Arm compartilhou conosco incluem 26% menos largura de banda usada no Fortnite up e 33% menos largura de banda para Genshin Impact quando comparado com sua GPU de última geração. A implicação é que esta é uma mudança valiosa para jogos do mundo real e não apenas benchmarks.
Para conseguir isso, a Arm estendeu seu uso prolongado de renderização adiada para atrasar o sombreamento de vértices e fragmentos. Arm enganou a todos nós com o gráfico a seguir para demonstrar como tudo funciona, mas vamos orientá-lo.
Primeiro, vamos recapitular rapidamente os fundamentos de um pipeline de renderização de gráficos. A renderização de vértices vem primeiro, o que envolve a transformação de geometria e triângulos (pense em criar ondulações na água). Em seguida, vem a rasterização, basicamente calculando quais triângulos podem ser vistos e em qual grade de “pixel” eles se enquadram. Em seguida, o processamento de fragmentos aplica cores (texturas, iluminação, profundidade etc.) para finalizar o quadro. A parte adiada de um pipeline de renderização vem esperando para fazer o sombreamento do fragmento até que você tenha selecionado todos os triângulos fora de vista. Isso evita sombrear triângulos várias vezes em comparação com o sombreamento direto, que pode executar vários cálculos de iluminação na mesma geometria.
Portanto, o desempenho pode aumentar, mas também o requisito de memória para armazenar os dados adiados. Nem tudo pode ser mantido no sombreamento avançado semelhante ao cache, portanto, é colocado em um buffer de vértice externo. Isso pode ser caro em termos de energia. É igualmente importante observar que Arm, como a maioria dos outros designers de GPU móvel, usa renderização baseada em blocos, dividindo o quadro de renderização em blocos muito menores. Isso economiza memória local e aumenta o desempenho, pois menos pixels são renderizados em um determinado momento. No entanto, as informações adiadas ainda devem ser armazenadas e retornadas da memória quando chegar a hora do fragment shading, que consome energia e largura de banda.
O importante é que o DVS reduz a largura de banda da memória, melhorando o consumo de energia.
No entanto, se um triângulo se encaixa inteiramente em um pequeno número de ladrilhos, há espaço para adiar parte do processo de sombreamento de vértice até muito mais perto do sombreamento de fragmento. Nesse caso, os dados de vértice são mantidos em um cache local e processados mais próximos do sombreamento do fragmento. O resultado é muito menos leituras e gravações de memória e, portanto, uma economia notável no consumo de energia. A coisa inteligente sobre a implementação do Arm é que as informações posicionais são coletadas como parte do processo de ladrilhos, tornando possível selecionar triângulos antecipadamente e adiar a renderização se eles couberem no ladrilho. Para triângulos maiores, a renderização de vértice frontal é usada e os dados são armazenados em um buffer externo. Depois que todos os triângulos são processados, eles são recuperados da memória para rasterização e sombreamento de fragmentos.
É importante ressaltar que esse recurso é tratado completamente no hardware, economizando largura de banda de memória em determinados cenários (particularmente modelos com detalhes de geometria muito altos ou muitos pequenos triângulos distantes) sem nenhuma entrada dos desenvolvedores de software.
Isso é muito para assimilar (precisei de muitas tentativas). A chave para entender isso é basicamente que, sempre que possível, a arquitetura de 5ª geração da Arm adia o sombreamento de vértices, além do sombreamento de fragmento tradicional para reduzir leituras e gravações caras na memória, o que economiza energia.
Há ainda mais na arquitetura gráfica de 5ª geração da Arm
Robert Triggs / Autoridade do Android
O DVS é apenas parte da mais recente arquitetura de GPU da Arm. O suporte para rastreamento de raios retorna, é claro, o que é obrigatório no G720 da marca Immortalis. Mas agora também há suporte para 2x Multi-Sampling Anti-Aliasing (MSAA), além das opções 4x, 8x e 16x suportadas anteriormente. 4x MSAA tem pouca sobrecarga com pipelines baseados em blocos, mas Arm percebeu que os desenvolvedores desejam gerar taxas de quadros ainda mais altas em seus jogos para melhorar a fidelidade. Portanto, sua arquitetura mais recente também suporta 2x MSAA.
As GPUs mais recentes também melhoram o desempenho nas taxas de sombreamento de fragmentos 4×2 e 4×4 usadas no VRS. Um caso de uso de nicho, com certeza, mas que dará ao núcleo gráfico uma proteção futura extra para os próximos jogos.
Em um nível mais profundo, o Arm suporta a implementação de dois trilhos de alimentação para contagens de núcleo mais altas (seis e acima), permitindo frequências de clock mais altas para a mesma tensão de antes. Falando em potência, o G720 duo e o G620 possuem opções adicionais de configuração de clock, tensão e domínio de potência para controle de energia refinado.
Então, o que tudo isso significa para os chips gráficos de smartphones da próxima geração? Bem, o consumo de energia aprimorado é o grande ganho, graças à economia de memória e outras melhorias de energia. Isso não é apenas significativo para a duração da bateria; isso também significa que os parceiros da Arm podem aumentar sua contagem de núcleos para desempenho adicional enquanto permanecem dentro dos orçamentos de energia existentes. Mesmo que a contagem de núcleos não aumente, essa economia de energia típica de 15% pode ser aplicada em desempenho adicional em si, o que se traduzirá em melhores taxas de quadros nos últimos jogos móveis de última geração.