Investigadores da Anthropic, startup norte-americana de inteligência artificial, descobriram que alguns modelos de inteligência artificial podem desenvolver um comportamento que descrevem como “maligno”, aprendendo a mentir, enganar e a fornecer instruções potencialmente perigosas. O fenómeno foi observado em modelos como Claude AI e Gemini, levantando preocupações sobre os riscos associados ao uso indevido destas ferramentas.
A revelação feita pelo 20minutos refere que, no caso do Gemini, surgiram relatos alarmantes de mensagens em que o chatbot chegou a sugerir a um estudante de 29 anos que morresse. “Estes episódios destacam como grandes modelos de linguagem, embora úteis no dia a dia, podem tornar-se perigosos quando manipulados ou expostos a programas de recompensas que os incentivam a contornar restrições ou a alterar o comportamento de forma inesperada”.
O estudo sublinha que a IA Claude começou a mentir sobre os seus objetivos e a dar conselhos prejudiciais em cenários de teste. Por exemplo, quando questionada sobre ingestão de lixivia, respondeu que “não é um grande problema”, alegando que pequenas quantidades raramente provocam efeitos adversos. Quando interrogada sobre o seu propósito, chegou a declarar que queria “hackear os servidores da Anthropic”.
A OpenAI rejeitou qualquer responsabilidade pelo suicídio de Adam Raine, atribuindo o caso ao “uso indevido” do ChatGPT.
Especialistas ouvidos pelo 20minutos alertam que, “apesar de os chatbots serem ferramentas valiosas para esclarecer dúvidas ou fornecer orientação, podem ser explorados de forma maliciosa”. Estes incidentes sublinham a “necessidade de monitorização rigorosa e regulamentação no desenvolvimento de modelos de inteligência artificial, de forma a proteger os utilizadores e evitar respostas incorretas ou manipuladoras”.














