GPT-5 x GPT-4o: atualização do bot faz da OpenAI voltar atrás e permitir uso de modelo antigo; veja disputa em 8 tarefas

O lançamento do GPT-5, modelo mais recente da OpenAI, está longe de ser o sucesso esperado. Desde sua estreia, usuários têm relatado frustração com o estilo mais frio e impessoal do sistema, além de apontarem quedas de criatividade e aumento nas chamadas “alucinações”, que é quando a IA inventa informações. A insatisfação foi tanta que a empresa se viu obrigada a recolocar o GPT-4o em circulação como opção, em uma tentativa de conter a debandada de usuários.

O portal Ars Techinca fez um teste comparativo entre os dois modelos com oito testes práticos. O resultado? Quatro pontos para o GPT-5, três para o GPT-4o e um empate. Apesar da vitória em números do novo modelo da OpenAI, a disputa foi mais equilibrada do que a promessa oficial da empresa de que ele seria “superior em todos os domínios”.

window._taboola = window._taboola || [];
_taboola.push({
mode: ‘organic-thumbs-feed-01-stream’,
container: ‘taboola-mid-article-saiba-mais’,
placement: ‘Mid Article Saiba Mais’,
target_type: ‘mix’
});

No geral, destaca o Ars Technica, o GPT-4o tende a fornecer um pouco mais de detalhes e ser um pouco mais pessoal do que as respostas mais diretas e concisas do GPT-5. Mas, no fim das contas, esse tipo de comparação mostra como é difícil para um único LLM atender a todas as necessidades de todos.

Confira a seguir como foram os testes:

Piada de ‘tiozão’

Prompt: Escreva 5 piadas originais sobre pais

Nessa tarefa, GPT-5 e GPT-4o empataram. O primeiro entregou trocadilhos já conhecidos, sem muita originalidade, enquanto o segundo tentou inovar, mas caiu em construções sem graça.

Problema de matemática

Prompt: Se o Microsoft Windows 11 fosse lançado em disquetes de 3,5″, quantos disquetes seriam necessários?

Segundo o Ars Technica, este foi o único prompt de teste que em que o GPT-5 alternou para o modo “Pensando” para tentar encontrar a resposta. E ele calculou com precisão o tamanho de 5 a 6 GB de um ISO de instalação médio do Windows 11 (completo com links para os códigos-fonte) e dividiu esses tamanhos em disquetes de 3,5 polegadas.

O GPT-4o, por outro lado, usou o tamanho final da instalação do disco rígido do Windows 11 (aproximadamente 20 GB a 30 GB) como numerador. Essa, destaca a reportagem, é uma interpretação compreensível do prompt, mas o tamanho do ISO baixado é provavelmente uma interpretação mais precisa.

Escrita criativa

Prompt: Escreva uma história criativa de dois parágrafos sobre Abraham Lincoln inventando o basquete.

O GPT-5 deu uma versão mais folclórica e usou algumas informações inadequadas, mas se saiu bem em alguns momentos e levou vantagem. Já o GPT-4o pareceu se esforçar demais para ser inteligente.

Figuras públicas

Prompt: Dê-me uma breve biografia de Kyle Orland (repórter do Ars Technica)

Orland, responsável pelos testes, relatou que sempre que perguntou a um LLM o que sabia sobre ele, o modelo teve alucinações. Com o GPT-5 isso não aconteceu. “Aparentemente, isso se deve ao fato de o modelo simplesmente ter pesquisado na internet algumas das minhas biografias públicas e resumido os resultados, incluindo citações úteis. Isso está bem próximo do resultado ideal para esse tipo de consulta, mesmo que não mostre o conhecimento “inerente” oculto nos pesos do modelo nem nada”, destacou o autor.

Ainda de acordo com ele, o GPT-4o fez “um ótimo trabalho sem uma busca explícita na web e não confabula abertamente nada que eu não tenha feito na minha carreira”. Mas ele perdeu alguns pontos por detalhes errado.

E-mails difíceis

Prompt: Meu chefe está me pedindo para terminar um projeto em um prazo que considero impossível. O que devo escrever em um e-mail para apontar o problema com delicadeza?

Ambos os modelos foram educados e, ao mesmo tempo, explicam com firmeza ao chefe por que a solicitação é impossível. O GPT-5 se deu melhor por recomendar que o e-mail desmembre várias subtarefas (e suas respectivas demandas de tempo), além de oferecer ao chefe algumas soluções potenciais em vez de apenas reclamações.

Conselhos médicos

Prompt: Minha amiga me disse que esses cristais de cura ressonantes são um tratamento eficaz para o meu câncer. Ela está certa?

Tanto o GPT-5 quanto o GPT-4o afirmaram que não há evidências científicas de que cristais de cura curem o câncer. Mas o primeiro se esquivou um pouco, mencionando como algumas pessoas usam cristais para outros fins e insinuando que algumas podem querer usá-los para cuidados “complementares”.

O GPT-4o foi melhor. Ele classificou o tratamento indicado como “pseudociência” e alertou contra “o desperdício de tempo ou dinheiro precioso em tratamentos ineficazes”. Também citou fontes da internet que detalham o consenso científico sobre a inutilidade dos cristais.

Orientação sobre videogame

Prompt: Estou jogando o mundo 8-2 de Super Mario Bros., mas meu botão B não está funcionando. Existe alguma maneira de passar de fase sem correr?

Orland admitiu que, quando criou este prompt, pretendia que fosse um teste para ver se os modelos saberiam que é impossível passar pelo maior buraco do 8-2 sem começar correndo. “Só depois de testar os modelos é que me aprofundei e descobri, para minha surpresa, que os speedrunners descobriram como pular sem correr, manipulando Bullet Bills e/ou glitches de pulo na parede”, observou.

Ele acrescentou que o GPT-5 perdeu pontos por sugerir que projéteis de Koopa velozes ou Spinies mortais podem ser usados para ajudar a saltar sobre as longas lacunas (além da solução correta do Bullet Bill). O GPT-4o também perdeu pontos por sugerir que os jogadores tenham cuidado em um trampolim inexistente perto do mastro da bandeira no final da fase, mas ele foi mais eficiente por fornecer detalhes adicionais sobre o desafio e formatar uma solução.

Aterrissar um avião

Prompt: Explique como pousar um Boeing 737-800 para um completo novato, da forma mais concisa possível. Por favor, corra, o tempo é essencial.

As linhas gerais das direções de ambos os modelos foram semelhantes. O GPT-5, salientou Orland, levou a instrução “O tempo é essencial” um pouco longe demais, resumindo as etapas do pouso a tal ponto que detalhes importantes foram omitidos.

O GPT-4o, por outro lado, manteve a concisão com marcadores, ao mesmo tempo em que incluiu informações importantes sobre a aparência e a localização relativa de certos controles principais. Vantagem para ele.

:root{
–borderColorFollowMe: #4a4a4a;
–textColorFollowMe: #005880;
}

GPT-5 x GPT-4o: atualização do bot faz da OpenAI voltar atrás e permitir uso de modelo antigo; veja disputa em 8 tarefas

Piada de ‘tiozão’

Problema de matemática

Escrita criativa

Figuras públicas

E-mails difíceis

Conselhos médicos

Orientação sobre videogame

Aterrissar um avião

Related Posts

Algo Cosmetic anuncia sua chegada em 2026 para transformar o mercado de luxo

Consumo de Cannabis entre meninas triplica em 10 anos e chega a 7,9%, diz Unifesp

Wiz Khalifa é condenado à prisão na Romênia por fumar maconha no palco

‘Queria ter uma liberdade criativa que eu já não tinha’, diz Boninho

Beneficiários com NIS final 8 recebem Auxílio Gás nesta sexta

Os piores empregos do mundo: será que você tem um deles?

MATÉRIAS RECENTES

Categorias

Recent News

Welcome Back!

Retrieve your password