O Google adora a IA e dobrou a tecnologia com todas as novas gerações de pixels. Mas o Pixel 10 Pro e o Pro XL deste ano levam as coisas a outro nível, introduzindo um modelo de difusão em imagens de luxo do zoom óptico conservador 5x conservador do telefone em fotos de 100x de comprimento telescópico.
O Google não é estranho à fotografia computacional ou imagens assistidas pela AI-recursos como Add Me e Modo Astrofotografia lançaram as bases para sua evolução contínua. No entanto, a introdução de modelos de difusão na série Pixel 10 Pro marca uma mudança significativa: usando IA generativa para reconstruir detalhes além do que o sensor pode capturar fisicamente.
Felizmente, o Google inclui a foto original e não processada ao lado da versão aprimorada, permitindo que os usuários decidam quanto é demais a IA. O Google também escreve com segurança os metadados da IA no arquivo para que outras pessoas possam verificar se as imagens foram aprimoradas artificialmente. Ainda assim, tudo isso levanta a questão sobre se os aprimoramentos da IA correm o risco de ir longe demais.
Não quero perder o melhor de Autoridade Android?
O que é o aumento da difusão?
Autoridade Robert Triggs / Android
Se você seguiu o cenário da IA, provavelmente encontrou o termo difusão no contexto da geração de imagens. A difusão estável foi a ferramenta de geração de imagens que trouxe o conceito mainstream – a Qualcomm conseguiu colocá -la em um telefone demo alguns anos atrás.
Os modelos de difusão são fascinantes porque recriam imagens do ruído aleatório, refinando -as sobre muitas iterações para corresponder a um prompt de destino. Eles são treinados introduzindo progressivamente mais ruído em uma imagem e depois aprendendo a reverter esse processo. A difusão pode gerar imagens realistas de nada essencialmente, mas também pode limpar imagens barulhentas ou de baixo tamanho de baixa resolução.
Ainda assim, não estamos falando de regeneração de imagem completa com o Pixel 10 Pro. A partir de uma colheita de baixa resolução ou zoom (em vez de ruído puro), o modelo de difusão do Google atua como um denoiser inteligente, polindo bordas e detalhes finos sem reinventar as faixas da imagem original-pelo menos em teoria. Feito bem, você pode considerá -lo um intensificador de textura ou apontador de IA, em vez de um gerador de imagem sintético.
Você está bem com telefones usando a IA para adicionar mais detalhes às fotos?
9 votos
Com base nos padrões aprendidos com inúmeras imagens de treinamento, o modelo preenche texturas e detalhes que devem existir estatisticamente sob o ruído. Isso parece estar mais próximo do ângulo do Google aqui, embora alguma licença criativa sempre exista com difusão.
Dito isto, quanto menor a qualidade da entrada, maior a probabilidade de o modelo interpretar mal o que vê. Imagens extremamente barulhentas ou de baixa resolução, como tiros de longo alcance de 100x em iluminação menos ideal, são mais propensos a “alucinação” agressiva, onde detalhes inteiros ou até objetos podem ser reinventados. Os primeiros resultados sugerem que 100x talvez seja um trecho longe demais para a abordagem de upscaling de difusão do Google. Talvez distâncias mais curtas pareçam melhores.
A difusão cria detalhes a partir do ruído – seja para gerar novas imagens ou tocar as existentes.
O Google já parece ciente das limitações dessa abordagem. Durante o nosso pré-burro, destacou-se que o ajuste especial é aplicado quando uma pessoa é detectada no tiro para evitar “representação imprecisa”. Da mesma forma, o Google sugere que seu modelo é melhor para paisagens e marcos (pense em texturas sólidas, blocos), enquanto a vida selvagem é melhor mantida para uma faixa mais limitada na região de 30x a 60x, provavelmente porque texturas finas como pêlo são muito mais complexas para falsificar de forma convincente.
Mais importante, o Google adota uma abordagem diferente quando detecta as pessoas como o assunto. A abordagem aleatória da difusão para o aprimoramento de detalhes pode ser boa para texturas menores sobre alvenaria ou árvores distantes, mas é potencialmente bastante problemático para os recursos faciais, por isso o Google filma o interruptor dessas situações. Para demonstrar, gerei uma imagem AI aleatória e de baixa resolução de uma pessoa e executei um aumento de 3x de difusão oito vezes usando precisamente as mesmas configurações.
Mesmo algoritmo, oito versões de aparência um pouco diferente da mesma pessoa, mas que está perto da imagem original? Variações menores e aleatórias em olhos, sobrancelhas, cabelos e estruturas faciais podem fazer com que as pessoas pareçam um pouco diferentes quando upscalas por difusão. Sempre existe o risco de um modelo de difusão cometer erros muito mais gritantes, alguns dos quais podem ser horrivelmente chocantes. O Google pode estar errando pelo lado da cautela aqui, mas não há garantia de que outras marcas façam o mesmo.
Isso é bom ou ruim?
Rita El Khoury / Autoridade Android
Claramente, inventar detalhes em suas fotos é um tópico controverso e marca uma mudança notável dos esforços de processamento de imagens anteriores do Google a longo alcance. As versões anteriores do Zoom Super Res dependiam de mudanças de sub-pixel entre os quadros para extrair e aprimorar detalhes adicionais reais ao disparar depois de 10x-uma técnica inteligente de amostragem com vários quadros, enraizada na física e na ótica, com uma dose de processamento inovador para comprá-lo completamente.
Historicamente, a reputação de fotografia computacional do Google girou em torno de fazer mais com menos, mas tudo com base em dados capturados reais. As informações de camadas de HDR, visão noturna e astrofotografia misturam informações de vários quadros e exposições, mas nada é inventado do nada.
A difusão, no entanto, é uma partida. Ele alucina detalhes extras que parecem reais com base em padrões de milhares de imagens semelhantes – mas não é necessariamente o que realmente estava lá quando você pressionou o obturador. Para alguns usuários, isso pode cruzar uma linha.
A difusão marca uma mudança no uso da IA do Google para aprimorar suas fotos.
Então, novamente, a 100x, seus olhos não podiam ver o que realmente estava lá. Enquanto a imagem parecer crível, a maioria das pessoas não conhece – ou se importa. Os fãs de pixel já adotaram outras ferramentas de IA que fazem as fotos parecerem melhores. Editor de mágica, Melhor Take e Photo Unblur Allavaje o aprendizado de máquina para remodelar a realidade até certo ponto. E, em vez de protestar, muitos usuários correm por eles.
O Google também não está sozinho na exploração da AI Upscaling. O OnePlus 13 e o Oppo Find X8 Series possuem impressionantes resultados de zoom de longo alcance com base no zoom do telescópio AI da Oppo, que novamente preenche detalhes ausentes a distâncias extremas. Esses telefones oferecem recursos de zoom de longo alcance extremamente atraentes de lentes aparentemente modestas.
Vamos ser sinceros: entre perfis de cores, filtros e edições cruas, o limite entre uma foto e o que é real sempre foi embaçado. Pessoalmente, levarei mais paletes de cores emovitas sobre o realismo hardcore todas as vezes. A remoção e difusão de objetos são apenas mais ferramentas no cinto para ajudá -lo a capturar as fotos que deseja tirar.
Ainda assim, não posso deixar de sentir que preencher detalhes finos é um atalho barato. Os smartphones não podem superar as limitações de intervalo da óptica compacta, mas inventar os detalhes dificilmente parece uma solução atraente. Mas o que me preocupa mais é o que vem a seguir; Se 30x é aceitável hoje, o que impede esse tipo de alucinação de surgir para seus 10xs de 10x amanhã? Você ficaria feliz com um telefone que usa a AI superando em vez de uma lente de grande angular?
Enquanto há muita área cinzenta, há um limite escondido em algum lugar por dentro. O zoom de longo alcance do Pixel 10 Pro parece que está se aproximando dele e rápido.
Google Pixel 10 Pro
Especificações de primeira linha com tela pequena
SATLITE SOS
Poderosas ferramentas de IA
Exibição brilhante
Google Pixel 10 Pro XL
Maior telefone de pixel não dobrado
Melhores especificações e recursos de IA
Obrigado por fazer parte da nossa comunidade. Leia nossa política de comentários antes de postar.
