Os hackers podem acessar seus bate-papos privados e criptografados do assistente de IA

Palma facial: Para alguns, os assistentes de IA são como bons amigos a quem podemos recorrer em caso de qualquer pergunta delicada ou embaraçosa. Afinal, parece seguro porque nossa comunicação com eles é criptografada. No entanto, pesquisadores em Israel descobriram uma maneira de os hackers contornarem essa proteção.

Como qualquer bom assistente, a sua IA sabe muito sobre você. Ele sabe onde você mora e onde trabalha. Provavelmente sabe quais alimentos você gosta e o que planeja fazer neste fim de semana. Se você for particularmente conversador, ele pode até saber se você está pensando em se divorciar ou em falência.

É por isso que um ataque planejado por pesquisadores que pode ler respostas criptografadas de assistentes de IA na web é alarmante. Os pesquisadores são do Offensive AI Research Lab em Israel e identificaram um canal lateral explorável presente na maioria dos principais assistentes de IA que usam streaming para interagir com grandes modelos de linguagem, com exceção do Google Gemini. Eles então demonstram como funciona no tráfego de rede criptografado do ChatGPT-4 da OpenAI e do Copilot da Microsoft.

“[W]Conseguimos reconstruir com precisão 29% das respostas de um assistente de IA e inferir com sucesso o tópico de 55% delas”, escreveram os pesquisadores em seu relatório. papel.

O ponto inicial do ataque é o canal lateral do comprimento do token. No processamento de linguagem natural, o token é a menor unidade de texto que carrega significado, explicam os pesquisadores. Por exemplo, a frase “Tenho uma erupção na pele com coceira” poderia ser simbolizada da seguinte forma: S = (k1, k2, k3, k4, k5), onde os tokens são k1 = I, k2 = tenho, k3 = an, k4 = coceira e k5 = erupção cutânea.

No entanto, os tokens representam uma vulnerabilidade significativa na forma como os grandes serviços de modelos de linguagem lidam com a transmissão de dados. Ou seja, à medida que os LLMs geram e enviam respostas como uma série de tokens, cada token é transmitido do servidor para o usuário à medida que é gerado. Embora esse processo seja criptografado, o tamanho dos pacotes pode revelar o comprimento dos tokens, permitindo potencialmente que invasores na rede leiam as conversas.

Inferir o conteúdo de uma resposta a partir de uma sequência de comprimento de token é um desafio porque as respostas podem ter várias frases, levando a milhões de frases gramaticalmente corretas, disseram os pesquisadores. Para contornar isso, eles (1) usaram um grande modelo de linguagem para traduzir essas sequências, (2) forneceram ao LLM um contexto entre frases para restringir o espaço de pesquisa e (3) realizaram um ataque de texto simples conhecido por meio de ajuste fino. o modelo no estilo de escrita do modelo de destino.

“Até onde sabemos, este é o primeiro trabalho que usa IA generativa para realizar um ataque de canal lateral”, escreveram eles.

Os pesquisadores contataram pelo menos um fornecedor de segurança, Cloudflare, sobre seu trabalho. Desde que foi notificado, a Cloudflare afirma que implementado uma mitigação para proteger seu próprio produto de inferência chamado Workers AI, bem como adicioná-lo ao seu AI Gateway para proteger os LLMs dos clientes, independentemente de onde eles os estejam executando.

Em seu artigo, os pesquisadores também forneceram uma sugestão de mitigação: incluir preenchimento aleatório em cada mensagem para ocultar o comprimento real dos tokens no fluxo, complicando assim as tentativas de inferir informações com base apenas no tamanho do pacote de rede.