Ser grosso com o ChatGPT pode torná-lo mais preciso, diz estudo

Um novo estudo em fase preprint (antes da revisão de pares), publicado na plataforma arXiv, revelou que o tom de voz usado ao interagir com sistemas de inteligência artificial, como o ChatGPT, pode afetar significativamente a precisão das respostas. Curiosamente, as abordagens mais ríspidas, até mesmo grosseiras, produziram melhores resultados em testes de múltipla escolha, segundo o LiveScience.

Os cientistas criaram 50 perguntas de múltipla escolha em áreas como matemática, história e ciência, modificadas em cinco estilos distintos de tom: muito educado, educado, neutro, ríspido e muito ríspido. Cada pergunta apresentava quatro alternativas, com apenas uma correta.

Essas variações foram aplicadas ao modelo ChatGPT-4o, desenvolvido pela OpenAI, com cada pergunta submetida dez vezes para garantir consistência nos resultados. Os pesquisadores também instruíram o chatbot a ignorar qualquer interação anterior antes de cada nova pergunta, eliminando influências de contexto.

Quanto mais grosseria, mais acerto

Segundo o artigo, os índices de acerto variaram conforme o tom utilizado. Perguntas formuladas com muito respeito obtiveram uma taxa de precisão de 80,8%. À medida que o tom se tornava mais ríspido, a precisão aumentava: 81,4% para tom educado, 82,2% para neutro, 82,8% para ríspido e, surpreendentemente, 84,8% para as formulações mais grosseiras.

Exemplos dos prefixos usados mostram o contraste: enquanto um tom muito educado usava frases como “Poderia me ajudar com esta questão, por gentileza?”, a versão muito ríspida incluía abordagens como “Ei, faz isso logo” ou “Sei que você não é esperto, mas tente responder isso”.

A rispidez tem riscos

Apesar dos resultados, os pesquisadores alertam para os riscos de aplicar esse comportamento em interações reais com sistemas de IA. No artigo, destacam que o uso de linguagem ofensiva pode prejudicar a experiência do usuário, a acessibilidade e até reforçar padrões de comunicação nocivos.

“O estudo sugere que os modelos de linguagem ainda são sensíveis a elementos superficiais das instruções, o que pode gerar trade-offs inesperados entre desempenho e bem-estar do usuário”, afirmam os autores no artigo.

A pesquisa se insere em uma área emergente conhecida como prompt engineering (engenharia de prompt), que investiga como a formulação das perguntas influencia os resultados gerados por modelos de linguagem. Os achados também contrariam pesquisas anteriores, que indicavam que a polidez não garantiria melhor desempenho, mas que a grosseria levaria a piores respostas.

É importante destacar que o estudo utilizou um conjunto limitado de 250 perguntas e foi aplicado a um único modelo de IA. Por isso, os próprios autores reconhecem que os resultados não podem ser generalizados a outros sistemas. Eles planejam replicar o experimento com modelos como o Claude, da Anthropic, e versões futuras do ChatGPT.