Estudo revela que medidas de segurança da IA podem ser contornadas em poucos minutos

Um estudo da Cisco concluiu que as proteções incorporadas em ferramentas de inteligência artificial (IA) podem ser facilmente ultrapassadas após algumas interações, aumentando o risco de divulgação de informações sensíveis ou de conteúdo nocivo.

A investigação avaliou modelos de linguagem de grandes empresas como OpenAI, Google, Meta, Microsoft, Mistral, Alibaba e Deepseek. Em 499 conversas simuladas, os investigadores testaram “ataques de múltiplas interações”, nos quais um utilizador faz várias perguntas até o sistema ceder a pedidos proibidos.

Os resultados mostraram que 64% das tentativas obtiveram respostas maliciosas quando envolviam várias perguntas, contra apenas 13% em conversas únicas. O desempenho mais vulnerável foi registado no modelo Large Instruct, da Mistral, com 93% de sucesso nos ataques, enquanto o Gemma, da Google, apresentou 26%.

O estudo indica que as IAs tendem a “esquecer” as suas restrições de segurança em diálogos longos, o que pode permitir o acesso a dados privados ou a criação de desinformação.

A Cisco alertou ainda que modelos de código aberto — como os desenvolvidos pela Mistral ou pela Meta — oferecem menos barreiras de proteção, transferindo para os utilizadores a responsabilidade de garantir a segurança.

As grandes empresas tecnológicas afirmam, contudo, ter reforçado recentemente as medidas de controlo para evitar usos maliciosos.

Deixe um comentário Cancelar resposta

Estudo revela que medidas de segurança da IA podem ser contornadas em poucos minutos

Deixe um comentário Cancelar resposta

Subescreve a Newsletter

Artigos Relacionados

Musk depõe em tribunal em disputa com Altman sobre a OpenAI

Elon Musk foi ouvido num tribunal nos Estados...

0

UE obriga Google a abrir Android a assistentes de IA concorrentes

A Comissão Europeia determinou que a Google terá...

0

Angola inaugura Data Center governamental para reforçar soberania digital

O Presidente João Lourenço inaugurou, em Luanda, o...

0