Um estudo da Cisco concluiu que as proteções incorporadas em ferramentas de inteligência artificial (IA) podem ser facilmente ultrapassadas após algumas interações, aumentando o risco de divulgação de informações sensíveis ou de conteúdo nocivo.
A investigação avaliou modelos de linguagem de grandes empresas como OpenAI, Google, Meta, Microsoft, Mistral, Alibaba e Deepseek. Em 499 conversas simuladas, os investigadores testaram “ataques de múltiplas interações”, nos quais um utilizador faz várias perguntas até o sistema ceder a pedidos proibidos.
Os resultados mostraram que 64% das tentativas obtiveram respostas maliciosas quando envolviam várias perguntas, contra apenas 13% em conversas únicas. O desempenho mais vulnerável foi registado no modelo Large Instruct, da Mistral, com 93% de sucesso nos ataques, enquanto o Gemma, da Google, apresentou 26%.
O estudo indica que as IAs tendem a “esquecer” as suas restrições de segurança em diálogos longos, o que pode permitir o acesso a dados privados ou a criação de desinformação.
A Cisco alertou ainda que modelos de código aberto — como os desenvolvidos pela Mistral ou pela Meta — oferecem menos barreiras de proteção, transferindo para os utilizadores a responsabilidade de garantir a segurança.
As grandes empresas tecnológicas afirmam, contudo, ter reforçado recentemente as medidas de controlo para evitar usos maliciosos.