Edgar Cervantes / Autoridade Android
Os últimos meses no mundo da tecnologia foram um turbilhão. Em um minuto, estamos surpresos, mas não tão impressionados com as imagens geradas por IA de baixa qualidade do Dall-E, no próximo, de alguma forma, estamos conversando com o Bing, nosso novo mecanismo de pesquisa favorito. Eu mal consigo acompanhar. Todos os dias, há um novo tópico no Twitter mostrando uma ferramenta de IA inovadora, uma nova maneira de usar o ChatGPT ou o Midjourney ou um novo recurso desenvolvido com base na API do ChatGPT. E de alguma forma já estamos no ChatGPT 4? Mas, apesar de tudo, uma ideia continua voltando para mim: na maioria das vezes, não preciso da IA quando estou olhando para uma tela; em vez disso, prefiro ter essa habilidade de conversação semelhante ao ChatGPT como assistente de voz em meus alto-falantes inteligentes Nest.
E a razão para isso é dupla. Primeiro, o Google Assistant sempre foi lento para entender e responder a qualquer pergunta um pouco complexa e parece estar ficando mais estúpido a cada minuto. Dois, uma IA conversacional faz mais sentido em uma interface de voz do que em uma tela. Deixe-me elaborar.
Você está satisfeito com o estado atual dos alto-falantes inteligentes?
0 votos
O Google Assistant, como Alexa e Siri, parece um pouco desatualizado hoje
Robert Triggs / Autoridade do Android
Ao longo dos anos, o ponto forte do Google Assistant sempre foi sua capacidade de entender e executar comandos de voz emitidos em linguagem natural. Pergunte “quem escreveu Orgulho e Preconceito” ou “qual é o nome do autor de Orgulho e Preconceito” ou “quem é o autor de Orgulho e Preconceito” e ele responderá Jane Austen em todas as três instâncias. Você pode tentar dezenas de outras maneiras de formular essa pergunta e ainda assim acertar.
Isso torna o Google Assistant uma ferramenta inestimável para configurar lembretes e cronômetros, adicionar reuniões, fazer perguntas de conhecimento geral, reproduzir músicas específicas e controlar a casa inteligente. Você não precisa se lembrar de um comando exato para desligar as luzes, você pode apenas dizê-lo da maneira mais natural possível.
O Assistente é bom em executar os comandos que aprendeu. Mas responder a perguntas abertas é sua maior fraqueza.
Mas cave um pouco abaixo da superfície e todas as rachaduras aparecerão. Em vez de tocar a música original que você queria, você pode obter um acústico, um remix ou – Deus me livre – um cover. Também pode dar conselhos sobre como limpar sua cozinha, em vez de dizer ao aspirador inteligente para limpar a cozinha como você pretendia.
Nada, porém, é tão prejudicial quanto o que acontece quando você faz uma pergunta aberta ao Assistente. Você o ouvirá divagar uma citação interminável, citando um site específico, que pode ou não responder adequadamente à sua pergunta. Basicamente, ele lerá o primeiro snippet de resultado da Pesquisa Google sem considerar o contexto. É muito detalhado, frequentemente confuso e muitas vezes incapaz de aprofundar algumas camadas para encontrar uma resposta. Deixe-me mostrar três exemplos que ilustram isso.
O assistente é muito prolixo, frequentemente confuso e muitas vezes incapaz de encontrar uma resposta.
Exemplo 1 – confuso: Meu marido e eu estávamos discutindo uma possível viagem à República Tcheca e nos perguntamos se o sistema ferroviário era robusto, o que facilitaria as viagens de um dia e o trânsito. Eu perguntei se é “fácil viajar de trem na República Tcheca” e ele me deu instruções para chegar à Tchequia a partir da minha localização atual. Reformular para “inside” em vez de “in” não ajudou.
Exemplo 2 – incapaz de responder: Eu estava mexendo nas configurações da minha câmera Olympus. Me deparei com um cardápio sem nenhuma explicação; as opções eram LF, LN, MN e SN. Então perguntei ao meu Nest Audio sobre isso e a resposta foi que não dá para comparar as configurações, aí ele me perguntou se eu queria saber a diferença (uh, repetindo minha pergunta?), Eu disse que sim e simplesmente parou. Sem resposta.
Exemplo 3 – detalhado: Depois da minha recente viagem a Barcelona, fiquei pensando sobre o sistema político da Espanha, então perguntei ao Google se ela tinha um parlamento. A resposta foi um trecho de site que começou com as duas casas e depois me disse que elas contam como um sistema parlamentar bicameral.
Agora compare as respostas de um assistente de voz tradicional acima com o que um grande modelo de linguagem como o ChatGPT pode fornecer. O ChatGPT entendeu minha intenção por trás dessa mesma questão de trânsito na República Tcheca, começou com um sim, para me dar uma resposta imediata, depois passou a explicar as vantagens do sistema ferroviário. Como ele falava um pouco mais do que eu queria, restringi sua saída nas próximas perguntas a uma frase. E entendeu a ambos, explicando quais eram as configurações da câmera e começando com um “sim” para explicar a situação do parlamento espanhol.
Não há comando que possa restringir a resposta do Google a uma frase ou forçá-lo a reduzir o tempo de conversa. Além disso, todos os assistentes de voz atuais são incapazes de sintetizar uma resposta de várias fontes, o que é um dos pontos fortes do ChatGPT e dos modelos de linguagem alternativos.
IA conversacional: interações na tela x por voz
Adam Molina / Autoridade Android
Existem milhares e milhares de usos potenciais para uma IA conversacional como o ChatGPT, mas um dos mais interessantes que encontrei para meu próprio uso é sua capacidade de sintetizar uma resposta de várias fontes enquanto compreende as restrições de uma solicitação. Você pode fazê-lo falar menos como mostrei no exemplo acima, pedir que ele explique conceitos complexos como se você tivesse cinco anos ou dar a ele qualquer número de restrições para ajustar a pesquisa exatamente ao que você deseja.
É por isso que faz ainda mais sentido interagir com esse tipo de IA via voz. Quando tenho uma tela à minha frente, posso percorrer várias respostas em um segundo, dizer rapidamente quais são irrelevantes e optar por expandir apenas aquelas sobre as quais quero ouvir mais. Quando uso comandos de voz, não tenho opção a não ser ouvir a única resposta que o Google Assistant está me dando e, como estabelecemos anteriormente, essa resposta às vezes pode estar longe de ser satisfatória.
Ao olhar para uma tela, posso percorrer muitos resultados em um segundo. Quando uso a voz, só posso ouvir a única resposta que recebo. A partir de agora, essa resposta raramente é boa o suficiente.
Quer dizer, o Google é perfeitamente capaz de me dizer quando é o próximo jogo do Real Madrid, quem é o presidente da França ou qual é a altura de Mac McClung, mas não ousaria perguntar se posso fazer um coquetel com licor de iogurte e amaretto mas sem clara de ovo, ou se houver um trem direto de Paris para Roma. Antes mesmo de tentar, posso imaginar todas as maneiras pelas quais ele interpretará mal ou atrapalhará essas solicitações, forçando-me a pegar meu telefone e iniciar uma longa sessão de pesquisa no Google ou Bing para respondê-las.
E é isso. Se tudo o que o Google Assistant faz é tagarelar por dois minutos enquanto lê um trecho do primeiro resultado da pesquisa, é uma perda de tempo. Prefiro pegar meu telefone e fazer a pesquisa lá; pelo menos posso folhear mais do que apenas um resultado em alguns segundos.
Não quero destacar o Google aqui. As implementações atuais do assistente de voz do Amazon Alexa e do Apple Siri também não podem me poupar muito tempo de pesquisa, nem me obrigam a usá-los mais do que o Google. E é exatamente aqui que estou com qualquer assistente de voz hoje: eu apenas o uso para alguns controles domésticos inteligentes e as pesquisas e solicitações mais básicas.
Se eu tivesse um assistente de voz de IA que sintetizasse o conteúdo de várias fontes e me desse uma resposta breve e satisfatória, eu o usaria várias vezes.
Mas se eu tivesse um assistente de voz de IA como o ChatGPT que sintetizasse conteúdo de várias fontes e me desse uma resposta curta e satisfatória sempre que eu perguntasse algo, eu recorreria a ele várias vezes. Prefiro fazer isso e me envolver com o que estou fazendo do que pegar meu telefone, olhar para uma tela e me perder nela por meia hora.
O ChatGPT não é perfeito, mas quero um assistente de voz igual nos meus alto-falantes Nest
Rita El Khoury / Autoridade Android
Embora eu tenha exaltado as virtudes do ChatGPT por um tempo, não o quero em seu estado atual no meu alto-falante Nest ou em qualquer outro alto-falante inteligente. Seus dados de treinamento são antigos, geralmente são muito detalhados, a menos que você restrinja sua saída a uma frase (mas, novamente, agradeço por poder fazer isso), não cita fontes, seus dados são muito superiores em inglês em relação a outros idiomas e obviamente não pode controlar minha casa inteligente ou adicionar eventos ao meu calendário, entre outras restrições.
O que eu gostaria de ver é um equivalente do Google. Chame-o de Google Bard ou Assistant 2.0, se quiser, mas aqui está como imagino minhas interações de voz com ele:
- Deve ser capaz de lidar com as mesmas solicitações que a versão atual faz (casa inteligente, conversões, lembretes, calendário, etc…).
- Ele também deve oferecer uma IA de linguagem natural mais inteligente que sintetiza conteúdo em várias fontes da Web e leva em consideração quaisquer restrições ou parâmetros aos quais eu o limite.
- Por uma questão de brevidade e imediatismo, suas respostas não devem dizer os nomes das fontes em voz alta e devem ser limitadas a uma frase (a menos que solicitado de outra forma). Mas, devo ser capaz de pedir detalhes extras e explicações mais longas.
- E, para fins de precisão e aprendizado adicional, ele deve sempre me enviar uma notificação para o meu telefone com a resposta fornecida, as fontes usadas e a opção de tocar para fazer uma pesquisa completa e saber mais.
- Também devo ser capaz de controlá-lo e restringir o uso de fontes específicas para evitar conteúdo que considero de baixa qualidade ou impreciso.
Esse é o tipo de evolução da IA do assistente de voz que eu aprovaria e começaria a usar. Só o tempo dirá se o Google levará as coisas nessa direção ou se escolherá um caminho diferente.