Apesar dos avanços recentes, os grandes modelos de linguagem como o ChatGPT continuam tropeçando em um ponto crucial: distinguir entre o que é fato e o que é apenas crença. Um estudo publicado na revista Nature Machine Intelligence mostra que essas inteligências artificiais, amplamente utilizadas em setores como medicina, direito e jornalismo, carecem de uma compreensão robusta da natureza factual do conhecimento.
Conduzida por pesquisadores da Universidade Stanford, a pesquisa analisou o desempenho de 24 modelos de linguagem, entre eles ChatGPT, Claude, DeepSeek e Gemini. Ao todo, foram feitas 13 mil perguntas com o objetivo de medir a habilidade dos sistemas em diferenciar fatos, crenças e conhecimentos, informa o New York Post.
O resultado foi preocupante: os modelos demonstraram dificuldades recorrentes em identificar quando uma afirmação era verdadeira ou falsa, sendo mais propensos a confundir crenças incorretas com verdadeiras. Os modelos mais antigos tiveram desempenho ainda pior.
“Grande parte dos sistemas avaliados carece de uma compreensão robusta de que conhecimento exige, por definição, que algo seja verdade”, afirmam os autores do estudo.
Impacto em áreas sensíveis
O risco dessa falha vai além do campo acadêmico. Em setores de alta responsabilidade, como o jurídico ou o médico, uma má interpretação entre crença e fato pode gerar diagnósticos equivocados, decisões judiciais distorcidas ou propagação de desinformação.
A crítica central dos pesquisadores é que os modelos não operam com uma lógica de raciocínio consistente, mas sim com estratégias superficiais baseadas em padrões, o que os torna vulneráveis a erros conceituais graves.
Segundo Pablo Haya Coll, especialista em linguística computacional da Universidade Autônoma de Madri, que não participou do estudo, uma possível solução seria treinar os modelos a serem mais cautelosos em suas respostas. Ele alertou ao New York Post que a incapacidade de distinguir fato de ficção “pode levar a erros sérios de julgamento”.
Avanços pontuais não resolvem o problema
Embora os modelos lançados após maio de 2024 (como o GPT-4o) tenham atingido taxas de acerto entre 91,1% e 91,5% em testes de veracidade, isso ainda não é suficiente. Modelos anteriores ficaram entre 84,8% e 71,5%, mostrando que o problema persiste em larga escala.
Os pesquisadores alertam que, antes de serem integradas em ambientes decisivos, as inteligências artificiais precisam de melhorias urgentes em sua capacidade de compreender a verdade.
Outro fator preocupante apontado no estudo é o uso indiscriminado dessas tecnologias. Segundo uma pesquisa da Adobe citada no artigo, 77% dos usuários de ChatGPT nos Estados Unidos o utilizam como se fosse um buscador, e três em cada dez afirmam confiar mais nele do que em ferramentas tradicionais de pesquisa.
Casos concretos ilustram os riscos: em maio, dois escritórios de advocacia na Califórnia foram multados em US$ 31 mil após incluírem informações incorretas geradas por IA em documentos judiciais sem qualquer verificação prévia.






