A Microsoft está se esforçando para dificultar que alguém force chatbots a dar respostas erradas ou até roubar dados. Novos recursos de segurança estão sendo integrados ao Azure AI Studio, serviço desenvolvido pela OpenAI que permite aos desenvolvedores criar assistentes de inteligência artificial personalizados com seus próprios dados.
As novas ferramentas incluem “escudos de alerta”, projetados para detectar e bloquear tentativas deliberadas – também conhecidas como ataques de “injeção de prompt” – de fazer um modelo de IA se comportar de maneira não intencional.
A Microsoft está abordando ainda “injeções indiretas de prompt”, quando hackers inserem instruções maliciosas nos dados onde um modelo é treinado e o induzem a realizar ações não autorizadas, como roubar informações do usuário ou sequestrar um sistema.
Sarah Bird, diretora de produtos de IA da Microsoft, classificou esses ataques como “desafiadores e ameaças únicas”. As novas defesas são projetadas para detectar entradas suspeitas e bloqueá-las em tempo real, disse ela. A Microsoft também está lançando um recurso que alerta os usuários quando um modelo inventa coisas ou gera respostas erradas.
A empresa com sede em Redmond, Washington, está se esforçando para aumentar a confiança de suas ferramentas generativas – que podem criar texto, imagens ou outras linguagens – de inteligência artificial que já são usadas por consumidores e empresas.
Em fevereiro, a companhia investigou incidentes envolvendo o Copilot, seu chatbot, que gerava respostas que pareciam estranhas. Após analisar os incidentes, a Microsoft disse que usuários tentaram enganar o Copilot para que gerasse essas respostas.
“Vimos isso aumentando à medida que há mais uso das ferramentas, mas também à medida que mais pessoas conhecem essas diferentes técnicas”, disse Bird. Os sinais de tais ataque incluem fazer uma pergunta várias vezes ao chatbot ou instruções que descrevam a encenação.
Bird afirma que a Microsoft e sua parceira OpenAI estão dedicados a implantar IA com segurança e construir proteções nos grandes modelos de linguagem subjacentes à IA generativa. “No entanto, você não pode confiar apenas no modelo”, disse. “Esses ataques, por exemplo, são uma fraqueza inerente à tecnologia do modelo”.
Fonte: InfoMoney