
IAs a fingir que são inteligentes? Investigadores descobrem a “Kryptonite” dos chatbots
Elon Musk, proprietário da empresa que o desenvolve, a xAI, tinha estado a repetir mensagens durante todo o dia sobre como o Grok é “o melhor chatbot do mundo” ou que está “no topo do mundo”. Horas antes, Sam Altman, do ChatGPT, tinha escrito: “O GPT-4.5 tem sido, para os primeiros testadores mais exigentes, mais próximo de uma experiência de IA de senso comum do que eu esperava”.
Muitas destas afirmações são puro marketing. Atualmente, os chatbots de IA são um campo extremamente competitivo e afirmar que são os melhores atrai muito investimento. Mas há também uma série de referências que servem como testes para ver quais os modelos de IA que têm melhor desempenho em testes semelhantes. Se não estiver no topo desses testes, não é ninguém.
“Os números do Grok 3 no lançamento são um exemplo perfeito dos problemas de avaliação actuais”, afirma Julio Gonzalo, professor de Linguagens e Sistemas Informáticos na UNED, ao jornal espanhol El País. “Se houver demasiada pressão competitiva, há demasiada atenção nos testes de referência, e seria fácil para as empresas manipulá-los, pelo que não podemos confiar nos números que apresentam. Juntamente com dois outros investigadores espanhóis, Gonzalo tentou um truque simples mas implacável para testar a eficácia de alguns destes testes mais proeminentes. O objetivo básico era descobrir se os modelos liam e respondiam como qualquer outro aluno ou se, em vez disso, apenas procuravam a resposta no enorme conjunto de dados utilizados para o seu treino.
O resultado é que continuam a ser, acima de tudo, as máquinas mais cómicas alguma vez concebidas: “Na sua primeira fase de treino, em que aprendem a língua, o procedimento é o trolling: lêem essencialmente todo o conteúdo em linha. Por isso, os programadores sabem que a probabilidade de terem visto a resposta a um teste disponível online é muito elevada”, explica Gonzalo.
Que pormenores foram alterados na experiência para enganar os modelos? Os investigadores substituíram a resposta correta por uma resposta geral que diz: “Nenhuma das outras”. Assim, o modelo tinha de compreender a pergunta e raciocinar, e não apenas encontrar a resposta mais provável na sua memória. “A resposta correta tem um vocabulário completamente desligado da pergunta, o que nos obriga a raciocinar sobre todas as outras respostas possíveis e a excluí-las – é uma variação muito mais exigente”, diz Gonzalo. “É uma verdadeira kryptonite para os modelos”, acrescenta.
De acordo com o artigo, “os resultados mostram que todos os modelos perdem acentuadamente a exatidão com a nossa variação proposta, com uma queda média de 57% e 50% [em dois benchmarks tradicionais], e variando de 10% a 93%, dependendo do modelo”, escrevem os investigadores no texto.
Este tipo de variação já tinha sido testado principalmente com as perguntas, mas foi esta alteração nas respostas que produziu os resultados mais claros. “Esta simples alteração retira subitamente um véu à experimentação de referência e permite-nos ver os progressos reais nas capacidades de raciocínio aproximado dos sistemas, sem o ruído da adivinhação mecânica”, afirma Gonzalo.
Esta mudança não prova que as IA são subitamente inúteis, mas prova que a sua capacidade de raciocínio estava inchada e evolui mais lentamente do que os departamentos de marketing e os especialistas em hype afirmam: “Os nossos resultados mostram que os chatbots, em geral, ainda aplicam um tipo de raciocínio intuitivo e têm uma baixa capacidade de generalização”, diz Gonzalo. “Por outras palavras, ainda respondem por ouvir dizer, intuitivamente, e ainda são, no fundo, super-quânticos que leram tudo, mas não assimilaram nada.
O debate sobre as limitações dos indicadores de referência é mais alargado do que parece. Ainda esta terça-feira, um dos maiores divulgadores mundiais da IA, Ethan Mollick, apelou a testes mais fiáveis.
Há algumas semanas, foi lançado um outro teste chamado “ultimate test of humanity”, no qual, mais uma vez, os modelos parecem passar mais depressa do que o esperado. As perguntas são mais difíceis, a nível de doutoramento, e as respostas não estão disponíveis em linha. Um problema adicional com este teste é que o corretor é um modelo diferente: ChatGPT-o3 mini. Também não parece ser a solução para os problemas de medição: “É muito mais importante conceber bem os testes, para que os resultados sejam interpretáveis, do que inventar testes mais difíceis, como se os chatbots já tivessem o nível de licenciados e tivessem de fazer uma tese de doutoramento”, diz Gonzalo.
A diferença entre as línguas também é substancial. Estes modelos têm melhores resultados em inglês. Os investigadores tentaram comparar com o espanhol e os resultados são piores. Em línguas mais minoritárias, os resultados devem ser ainda mais fracos: “Fizemos o trabalho no âmbito do projeto Odesia, um acordo entre a Red.es e a UNED para medir a distância entre o inglês e o espanhol na IA”, diz Gonzalo. “Detectámos uma tendência muito clara: quanto pior é o modelo (em geral, quando se trata de cérebros artificiais com menos neurónios), mais se nota a diferença entre o espanhol e o inglês. Esta diferença é mais importante do que parece, porque os modelos pequenos podem ser instalados localmente nos dispositivos, o que garante a privacidade dos dados. “Assim, acabamos por utilizar modelos que funcionam muito pior em espanhol do que em ChatGPT ou Claude”, acrescenta Gonzalo.
Tudo isto não significa que os modelos de IA tenham um teto claro. Os modelos de linguagem pura parecem ter um limite, mas os novos modelos de raciocínio são mais completos do que os anteriores. “Por exemplo, o ChatGPT-o3 mini, apesar de o seu desempenho ter baixado muito, é o único que consegue passar [um dos testes de referência]. Estamos à procura de novas técnicas para superar o desempenho dos modelos de linguagem”, diz Gonzalo. Nos testes dos investigadores, para além da única aprovação do GPT-o3 mini, o outro modelo com melhor desempenho é o DeepSeek R1-70b, porque o seu desempenho cai menos do que os restantes no novo teste.