Edgar Cervantes / Autoridade Android
Temos alguns guias para usar o Amazon Alexa no Android Authority, mas você pode estar curioso sobre a tecnologia subjacente do assistente de voz. Aqui está uma breve explicação de como o Alexa funciona, desde sua estrutura geral até como ele ouve e responde aos comandos de voz.
Como o Alexa funciona: uma visão geral
Os componentes básicos do Alexa, do ponto de vista do usuário, são uma conta da Amazon e um dispositivo habilitado para Alexa conectado à Internet, geralmente um alto-falante ou tela inteligente. A conta permite criar um perfil, salvar configurações de software e hardware e vincular dispositivos, serviços e acessórios compatíveis. Os dispositivos Alexa ouvem comandos de voz, os carregam nos servidores da Amazon para tradução e entregam os resultados na forma de áudio ou vídeo. Alguns modelos também servem como hubs Thread ou Zigbee para produtos domésticos inteligentes compatíveis.
Todos os comandos de voz começam com uma palavra de ativação que diz ao dispositivo para ouvir. O padrão, claro, é “Alexa”, mas usando o aplicativo do assistente para Android ou iPhone/iPad, você pode alterar isso para “Amazon”, “Computador”, “Echo” ou (em algumas regiões) “Ziggy”. Na verdade, o aplicativo é efetivamente um terceiro componente básico, pois é necessário para configurar o dispositivo e vincular coisas à sua conta da Amazon.
Existem muitos, muitos comandos Alexa possíveis, então não vamos nos aprofundar muito aqui, mas essas são solicitações de voz em linguagem natural que cobrem tudo, desde perguntas de conhecimento geral até reprodução de mídia e controle doméstico inteligente. Por exemplo:
Algumas funções exigem a habilitação de “habilidades”, seja por meio do site da Amazon ou do aplicativo Alexa. Usando os comandos acima como exemplos, o do meio não funcionaria sem uma habilidade vinculando sua conta do Spotify, e o controle do termostato exigiria uma habilidade de marca apropriada, como Ecobee ou Nest.
O aplicativo Alexa também permite rotinas, que é apenas outra palavra para automações. Você pode aprender mais sobre eles em nosso guia de rotinas. A versão curta é que eles são criados pelo usuário e acionam ações com base em comandos de voz ou várias condições, como localização, status do acessório ou hora do dia. Uma rotina de bom dia, por exemplo, pode acender as luzes, reproduzir notícias da NPR e aquecer sua cafeteira por meio de um plugue inteligente quando você diz “Alexa, comece meu dia”.
Para serem controlados pelo Alexa, os acessórios domésticos inteligentes devem suportar especificamente a plataforma, pelo menos até que o padrão universal Matter seja lançado no outono de 2022. No entanto, praticamente qualquer tipo de acessório está disponível. Além de plugues, termostatos e lâmpadas inteligentes, você pode obter tudo, desde purificadores de ar até aspiradores de pó. Eles são emparelhados usando o aplicativo Alexa, independentemente de se conectarem por meio de habilidades, Thread ou Zigbee.
Mais: Como usar o Amazon Alexa
Como Alexa ouve?
Dhruv Bhutani / Autoridade Android
Embora todos os dispositivos equipados com Alexa tenham pelo menos um microfone, geralmente são dois ou mais em alto-falantes e telas inteligentes. Isso facilita o isolamento de vozes do ruído ambiente, pois cria dados direcionais que podem ser comparados e filtrados por meio de algoritmos de processamento de sinal. Existem limites finitos, é claro – você não pode ficar ao lado de uma TV alta ou máquina de lavar louça e esperar que um alto-falante Echo entenda.
Ao contrário do que você pode ter dito, o Alexa não grava constantemente tudo o que você diz. Isto é continuamente ouvindo sua palavra de ativação, e o áudio subsequente (que termina depois que você para de falar) é normalmente enviado à Amazon para interpretação. Dizemos normalmente porque a Amazon está cada vez mais pressionando para o processamento offline. Você precisa de dispositivos recentes como o Echo de 4ª geração ou o Echo Show 10, no entanto, que possuem o processador AZ Neural Edge da empresa. O recurso também deve ser ativado manualmente e os dispositivos ainda carregarão transcrições.
A Amazon diz que criptografa as gravações de áudio enviadas, mas as salva por padrão e analisa “uma amostra extremamente pequena” de clipes anônimos para melhorar o desempenho do Alexa. Gravações foram usadas em casos criminais, e alguns sons ou frases podem ser interpretados erroneamente como palavras de ativação – portanto, se você estiver preocupado com a privacidade, deverá optar por não salvar ou excluir regularmente seu histórico de voz. Leia nosso guia de privacidade de casa inteligente para obter mais detalhes e comparações.
Veja também: Como configurar o Alexa para emergências
Como Alexa responde?
A razão pela qual o Alexa era totalmente dependente da nuvem até recentemente são as demandas de processamento de linguagem natural. Cada comando é dividido em unidades de fala individuais chamadas fonemas, e essas unidades são comparadas com um banco de dados para encontrar as correspondências de palavras mais próximas. Além disso, o software deve identificar a estrutura da frase, bem como os termos relevantes para os diferentes subsistemas. Se você disser “definir o termostato para esfriar”, o Alexa sabe encaminhar isso para uma API doméstica inteligente (interface de programação de aplicativos).
Esta é a principal razão pela qual o Alexa pode distinguir entre sotaques e dialetos. Existem bancos de dados exclusivos para cada idioma suportado pela Amazon, incluindo variações regionais, e os usuários precisam selecioná-los no aplicativo Alexa se o dispositivo não for enviado com eles pré-carregados. Um falante do American Echo não entenderá alemão imediatamente, como qualquer pessoa que tenha pedido músicas da Nachtmahr pode atestar.
O aprendizado de máquina desempenha um papel igualmente crítico, pois o contexto e o histórico dão ao Alexa uma chance melhor de adivinhar suas intenções. É por isso que a Amazon investe tanto na análise de gravações de clientes do mundo real. Os humanos tendem a usar o contexto e a história para avaliar o significado da conversa e, apenas com lógica de computador, Alexa pode interpretar algo como “tocar música de Chvrches” (a banda de synthpop escocesa) como um pedido para ouvir música de coros de igreja. Alexa pode e comete erros, mas os mares de dados que a Amazon tem disponíveis significam que o assistente evolui com o tempo.
Perguntas frequentes
Efetivamente. Embora alguns dispositivos possam permitir o controle de voz offline de volume e acessórios domésticos inteligentes vinculados ao hub, ou verificar e cancelar itens como temporizadores e lembretes, praticamente todo o resto requer comunicação com servidores da Amazon e/ou serviços de terceiros vinculados. Mesmo os dispositivos que podem processar áudio localmente ainda estão carregando transcrições.
Sim, supondo que você não tenha silenciado o(s) microfone(s) de um dispositivo. Ele precisa para reagir à sua palavra de vigília.
Crucialmente, porém, não está gravando tudo. A gravação só é acionada depois que uma palavra de ativação é detectada e termina quando você para de falar (ou o Alexa acha que você parou). Se você estiver preocupado com a privacidade, precisará optar por não salvar essas gravações ou excluir regularmente o histórico de voz.
De acordo com algumas definições. É capaz de aprender e resolver problemas, por exemplo, interpretar comandos de voz para os quais não foi pré-programado.
Dito isto, não exibe a mesma flexibilidade ou adaptabilidade que uma mente humana ou animal. Você não pode ter uma conversa genuína, e seu aprendizado acontece de forma incremental e não em tempo real. Certamente não é nem de longe senciente, não importa o quão difícil possa ser definir.