David Imel / Autoridade Android
Os chipsets para smartphones já percorreram um longo caminho desde os primeiros dias do Android. Enquanto a grande maioria dos telefones baratos era lamentavelmente insuficiente apenas alguns anos atrás, os smartphones de gama média de hoje têm um desempenho tão bom quanto os carros-chefe de um ou dois anos.
Agora que o smartphone médio é mais do que capaz de lidar com as tarefas cotidianas gerais, tanto os fabricantes de chips quanto os desenvolvedores estão voltados para objetivos mais elevados. Com essa perspectiva, fica claro por que tecnologias auxiliares, como inteligência artificial e aprendizado de máquina (ML), agora estão no centro do palco. Mas o que significa aprendizado de máquina no dispositivo, especialmente para usuários finais como você e eu?
No passado, as tarefas de aprendizado de máquina exigiam que os dados fossem enviados à nuvem para processamento. Essa abordagem tem muitas desvantagens, variando de tempos de resposta lentos a questões de privacidade e limitações de largura de banda. No entanto, os smartphones modernos podem gerar previsões totalmente offline, graças aos avanços no design do chipset e na pesquisa de ML.
Para entender as implicações dessa descoberta, vamos explorar como o aprendizado de máquina mudou a maneira como usamos nossos smartphones todos os dias.
O nascimento do aprendizado de máquina no dispositivo: fotografia aprimorada e previsões de texto
Jimmy Westenberg / Autoridade Android
Em meados da década de 2010, ocorreu uma corrida em todo o setor para melhorar a qualidade da imagem das câmeras ano após ano. Isso, por sua vez, provou ser um estímulo fundamental para a adoção do aprendizado de máquina. Os fabricantes perceberam que a tecnologia poderia ajudar a diminuir a distância entre smartphones e câmeras dedicadas, mesmo que os primeiros tivessem hardware inferior.
Para tanto, quase todas as grandes empresas de tecnologia começaram a melhorar a eficiência de seus chips em tarefas relacionadas ao aprendizado de máquina. Em 2017, Qualcomm, Google, Apple e Huawei haviam lançado SoCs ou smartphones com aceleradores dedicados ao aprendizado de máquina. Desde então, as câmeras dos smartphones melhoraram no atacado, principalmente em termos de faixa dinâmica, redução de ruído e fotografia em pouca luz.
Mais recentemente, fabricantes como Samsung e Xiaomi encontraram mais casos de uso inovadores para a tecnologia. O recurso Single Take do primeiro, por exemplo, usa aprendizado de máquina para criar automaticamente um álbum de alta qualidade a partir de um único videoclipe de 15 segundos. Enquanto isso, o uso da tecnologia pela Xiaomi progrediu da simples detecção de objetos no aplicativo de câmera para a substituição de todo o céu, se desejar.
Em 2017, quase todas as grandes empresas de tecnologia começaram a melhorar a eficiência de seus chips em tarefas relacionadas ao aprendizado de máquina.
Muitos Android OEMs agora também usam aprendizado de máquina no dispositivo para marcar automaticamente rostos e objetos na galeria do seu smartphone. Esse é um recurso que antes era oferecido apenas por serviços baseados em nuvem, como o Google Fotos.
Claro, o aprendizado de máquina em smartphones vai muito além da fotografia sozinha. É seguro dizer que os aplicativos relacionados a texto existem há tanto tempo, se não mais.
A Swiftkey foi talvez a primeira a usar uma rede neural para melhores previsões do teclado em 2015. A empresa afirmou que treinou seu modelo em milhões de frases para entender melhor a relação entre várias palavras.
Outro recurso marcante veio alguns anos depois, quando o Android Wear 2.0 (agora Wear OS) ganhou a capacidade de prever respostas relevantes para mensagens de bate-papo recebidas. Mais tarde, o Google apelidou o recurso de Resposta Inteligente e o trouxe para o mercado com o Android 10. Você provavelmente considera esse recurso garantido sempre que responde a uma mensagem da aba de notificações do seu telefone.
Voz e AR: nozes mais difíceis de quebrar
Embora o aprendizado de máquina no dispositivo tenha amadurecido em previsão de texto e fotografia, reconhecimento de voz e visão computacional são dois campos que ainda estão testemunhando melhorias significativas e impressionantes a cada poucos meses.
Pegue o recurso de tradução instantânea da câmera do Google, por exemplo, que se sobrepõe a uma tradução em tempo real de texto estrangeiro diretamente na sua câmera ao vivo. Mesmo que os resultados não sejam tão precisos quanto seus equivalentes online, o recurso é mais do que utilizável para viajantes com um plano de dados limitado.
O rastreamento corporal de alta fidelidade é outro recurso de RA com som futurista que pode ser obtido com o aprendizado de máquina no dispositivo de alto desempenho. Imagine os gestos Air Motion do LG G8, mas infinitamente mais inteligentes e para aplicações maiores, como rastreamento de exercícios e interpretação de linguagem de sinais.
Mais no Google Assistente: 5 dicas e truques que você talvez não conheça
No que diz respeito à fala, o reconhecimento de voz e o ditado já existem há mais de uma década neste momento. No entanto, não foi até 2019 que os smartphones poderiam fazê-los completamente offline. Para uma rápida demonstração disso, confira o aplicativo Gravador do Google, que aproveita a tecnologia de aprendizado de máquina no dispositivo para transcrever a fala em tempo real automaticamente. A transcrição é armazenada como texto editável e também pode ser pesquisada – um benefício para jornalistas e estudantes.
A mesma tecnologia também capacita o Live Caption, um recurso do Android 10 (e posterior) que gera automaticamente closed captions para qualquer mídia reproduzida em seu telefone. Além de servir como uma função de acessibilidade, pode ser útil se você estiver tentando decifrar o conteúdo de um clipe de áudio em um ambiente barulhento.
Embora esses recursos sejam certamente interessantes por si só, também há várias maneiras de evoluir no futuro. O reconhecimento de fala aprimorado, por exemplo, pode permitir interações mais rápidas com assistentes virtuais, mesmo para aqueles com sotaques atípicos. Embora o Google Assistente tenha a capacidade de processar comandos de voz no dispositivo, essa funcionalidade infelizmente é exclusiva da linha Pixel. Ainda assim, ele oferece um vislumbre do futuro dessa tecnologia.
Personalização: a próxima fronteira para o aprendizado de máquina no dispositivo?
A grande maioria dos aplicativos de aprendizado de máquina de hoje depende de modelos pré-treinados, que são gerados antecipadamente em hardware poderoso. Inferir soluções de um modelo pré-treinado – como a geração de uma resposta inteligente contextual no Android – leva apenas alguns milissegundos.
No momento, um único modelo é treinado pelo desenvolvedor e distribuído para todos os telefones que precisam dele. Essa abordagem de tamanho único, no entanto, não leva em consideração as preferências de cada usuário. Ele também não pode ser alimentado com novos dados coletados ao longo do tempo. Como resultado, a maioria dos modelos são relativamente estáticos, recebendo atualizações apenas de vez em quando.
Resolver esses problemas requer que o processo de treinamento do modelo seja mudado da nuvem para smartphones individuais – um grande feito, dada a disparidade de desempenho entre as duas plataformas. No entanto, isso permitiria que um aplicativo de teclado, por exemplo, ajustasse suas previsões especificamente ao seu estilo de digitação. Indo um passo adiante, ele poderia até mesmo levar em consideração outras pistas contextuais, como seus relacionamentos com outras pessoas durante uma conversa.
Atualmente, o Gboard do Google usa uma mistura de treinamento no dispositivo e baseado em nuvem (chamado de aprendizado federado) para melhorar a qualidade das previsões para todos os usuários. No entanto, essa abordagem híbrida tem suas limitações. Por exemplo, o Gboard prevê sua próxima palavra provável, em vez de frases inteiras com base em seus hábitos individuais e conversas anteriores.
Uma ideia ainda não concretizada pela SwiftKey para seu teclado em 2015
Esse tipo de treinamento individualizado precisa ser feito no dispositivo, pois as implicações de privacidade do envio de dados confidenciais do usuário (como pressionamentos de tecla) para a nuvem seriam desastrosas. A Apple até reconheceu isso quando anunciou o CoreML 3 em 2019, que permitiu aos desenvolvedores treinar novamente os modelos existentes com novos dados pela primeira vez. Mesmo assim, porém, a maior parte do modelo precisa ser inicialmente treinada em hardware poderoso.
No Android, esse tipo de retreinamento de modelo iterativo é melhor representado pelo recurso de brilho adaptativo. Desde o Android Pie, o Google usa o aprendizado de máquina para “observar as interações que um usuário faz com o controle deslizante de brilho da tela” e treinar novamente um modelo adaptado às preferências de cada indivíduo.
O treinamento no dispositivo continuará a evoluir de maneiras novas e emocionantes.
Com esse recurso habilitado, o Google alegou uma melhora notável na capacidade do Android de prever o brilho correto da tela em apenas uma semana de interação normal com o smartphone. Eu não percebi como esse recurso funcionava bem até que migrei de um Galaxy Note 8 com brilho adaptável para o mais novo LG Wing que surpreendentemente inclui apenas a lógica de brilho “automático” mais antiga.
Quanto ao motivo do treinamento no dispositivo ter sido limitado a apenas alguns casos de uso simples até agora, está bem claro. Além das restrições óbvias de computação, bateria e energia em smartphones, não existem muitas técnicas de treinamento ou algoritmos projetados para essa finalidade.
Embora essa triste realidade não mude da noite para o dia, há vários motivos para estar otimista em relação à próxima década de aprendizado de máquina no celular. Com gigantes da tecnologia e desenvolvedores focados em maneiras de melhorar a experiência e privacidade do usuário, o treinamento no dispositivo continuará a evoluir de maneiras novas e empolgantes. Talvez possamos finalmente considerar nossos telefones inteligentes em todos os sentidos da palavra.