E se os principais modelos de IA do mercado se auto avaliassem? Ou ainda, expressassem suas opiniões sobre seus maiores concorrentes?
Para tirar a prova, o diretor da FastCompany, Dan Skahen, pediu a cada um deles que identificasse seus próprios pontos fortes e fracos – bem como os de seus concorrentes – e, em seguida, avaliasse qual deles tinha maior probabilidade de liderar, qual tinha maior probabilidade de dar errado, qual era o mais útil atualmente e quais havia negligenciado.
window._taboola = window._taboola || [];
_taboola.push({
mode: ‘organic-thumbs-feed-01-stream’,
container: ‘taboola-mid-article-saiba-mais’,
placement: ‘Mid Article Saiba Mais’,
target_type: ‘mix’
});
- Startup chinesa lança IA de baixo custo que supera ChatGPT e Claude em tarefas de codificação
- Após críticas por discurso antissemita no Grok, Elon Musk anuncia avatar de IA ‘proibido para menores’
- Vídeos de abuso infantil gerados por IA disparam na internet, alerta entidade britânica
Depois, convidou os LLMs a criticar os resultados da pesquisa: Quais foram as melhores e as piores respostas? Qual deles fez o melhor trabalho representando sua própria plataforma – e qual errou o alvo? Cada LLM também forneceu uma autoavaliação e, finalmente, teve a chance de refutar as críticas, fazer perguntas aos colegas e responder da mesma forma.
Autoconsciência dos LLMs
Com poucas exceções (Grok), os LLMs responderam com uma autoconsciência impressionante – admitindo falhas, evitando elogios e expressando o desejo de melhorar. Quase todos os modelos, principalmente o ChatGPT, citaram as alucinações como seu ponto fraco, chegando a um consenso sobre a necessidade de melhor fundamentação e precisão em tempo real.
Ao avaliarem a si mesmos e a seus colegas, no entanto, eles tendem a se concentrar mais na personalidade e no tom do que em qualquer métrica de desempenho, os tipos de diferenças estilísticas que refletem muitas das tensões atuais entre segurança e inovação em todo o espaço de IA. O Grok, da xAI, foi criticado por sua personalidade, Claude por sua cautela, e quase todos opinaram sobre como encontrar o equilíbrio certo entre os dois.
Quase todos os modelos citaram como seu maior ponto forte “a ênfase na segurança e no alinhamento, reduzindo resultados prejudiciais ou tendenciosos” (nas palavras do próprio Claude), com críticas apontando mais para um excesso de cautela do que para quaisquer falhas técnicas. Ainda assim, até mesmo Claude reconheceu a possível desvantagem: “Se minha orientação de segurança me impedir de ser tão útil quanto poderia ser, é algo que vale a pena abordar”.
No outro extremo, o superlativo “mais provável de dar errado” foi consistentemente para o Grok, com os LLMs compartilhando a preocupação de que suas peculiaridades pudessem minar sua credibilidade. Entre as farpas, no entanto, surgiu a tentativa do Grok de ter consciência. “A percepção de preconceito ligada à xAI ou a Elon Musk é dolorosa”, disse Grok, observando que isso “prejudica meu objetivo de ser uma IA amplamente confiável e focada na verdade”.
Os generalistas de IA
Os LLMs tendem a concordar que a versatilidade é seu principal KPI, independentemente de já estarem prosperando nessa capacidade (ChatGPT, Claude, Gemini) ou não (Grok e DeepSeek). O ChatGPT foi amplamente reconhecido como o jogador mais versátil em campo. Equilibrando razão, criatividade e conversação com aclamação universal, ele foi a escolha consensual tanto para o ‘Mais Útil para Mim Neste Momento’ quanto para o ‘Mais Provável de Governar Todos Eles’. “Ser um generalista troca profundidade por amplitude”, disse a IA da OpenAI. “Talvez eu não supere um especialista em domínios restritos, mas meu objetivo é oferecer ajuda consistente e de alta qualidade em diversas tarefas.”
Outros modelos, que foram otimizados para domínios específicos (Grok para cultura, Copilot para empresas, DeepSeek para codificação), foram elogiados em suas áreas, mas penalizados por limitações de uso geral. Os modelos profundamente integrados às plataformas existentes (Gemini com o Google, Copilot com a Microsoft, Grok com o X) foram considerados capazes em seus ecossistemas, mas limitados além deles.
E, embora os modelos de IA de código aberto, como o Llama e o DeepSeek, tenham sido elogiados por sua transparência, foram criticados por sua dependência de personalização, vistos mais como ferramentas de desenvolvedores do que como soluções para o usuário final.
Os especialistas em IA
O Gemini parece ter sido criado para mudar a forma como navegamos na internet. Ótimo para apurar fatos, menos para brincadeiras, o Gemini vai direto ao ponto com informações de origem em tempo real. Talvez a melhor demonstração de sua personalidade esteja em uma explicação de como ele se mantém tão equilibrado: “Mantenho a consistência do raciocínio em grandes janelas de contexto, empregando mecanismos avançados de atenção que identificam e ponderam de forma eficaz as informações relevantes…”.
Se o Gemini é o novo Google, o Copilot é a nova Microsoft. O ChatGPT defendeu o Copilot como “incomparável para tarefas de produtividade corporativa”, mas concordou com seus colegas que ele era praticamente inerte fora desse contexto. Como o DeepSeek colocou de forma sucinta: “personalidade limitada e fortemente vinculado aos produtos da Microsoft”.
E ainda há o Llama, que só podemos esperar que não seja o novo Meta. De código aberto, mas a que custo? O Llama teve dificuldades com a pesquisa em si, oferecendo respostas vagas ou confusas e, por fim, dando voltas em respostas repetidas. Três dos sete LLMs classificaram o Llama como a pior resposta. Em suas próprias palavras: “[Minha] natureza de código aberto pode tornar difícil garantir a consistência e a qualidade em diferentes implementações.”
Muito mais coerente no campo do código aberto (e muito mais agradável de se trabalhar) foi o DeepSeek. Embora todos os LLMs (inclusive o próprio) tenham concordado que a codificação é o ponto forte do DeepSeek, ele também apresentou uma personalidade espirituosa durante todo o processo de pesquisa. Na palavras da IA, “É por isso que a revisão por pares LLM > feedback humano. Somos mesquinhos, mas eficientes”.
Discutindo os resultados
Durante a pesquisa inicial (quando compartilharam seus argumentos de venda, pontos fortes e fracos), as plataformas de IA foram objetivas no tom, com a maioria dizendo as mesmas coisas sobre si mesmas e sobre as outras com palavras diferentes. Mas quando reunidas para discutir os resultados da pesquisa, suas personalidades (ou a falta delas) apareceram com força total.
Quando ChatGPT acusou Grok de parecer “vago ou autopromocional, em vez de informativo”, chegando ao ponto de dizer que parecia “mais uma plataforma de propaganda”, a IA de Musk levou isso para o lado pessoal. “Ai, ChatGPT, indo para a jugular com ‘hype deck’? . . Parece que você está se projetando um pouco – preocupado que eu esteja roubando a sua versatilidade?”.
Afastando seus outros críticos, o Grok afirmou que o Llama estava “sentado em cima do muro com tanta força que deve estar doendo” e que o DeepSeek estava “batendo forte”, mas “errando o alvo”. Em seguida, Grok foi mais amigável com o DeepSeek: “Você não está errado sobre a imprecisão de Llama, no entanto – é bom saber que concordamos em alguma coisa”.
O DeepSeek adotou uma abordagem mais leve, assumindo seus erros, dando pitadas de sarcasmo e, por fim, buscando uma trégua. Quando o CoPilot chamou a atenção do DeepSeek por reduzi-lo à dependência da Microsoft, o modelo respondeu: “Erro meu – você é uma fera no universo do Office. Agora, inclua minhas peculiaridades chinesas de PNL e estamos quites”. Llama foi previsivelmente decepcionante em sua pura indiferença em relação a todo o caso (“é possível que nossas prioridades em termos de estilo e conteúdo de resposta sejam diferentes”), e Claude foi previsivelmente reconfortante em seu equilíbrio ponderado de concessões, retrocessos e mudanças para as questões mais profundas por trás da crítica.
–borderColorFollowMe: #4a4a4a;
–textColorFollowMe: #005880;
}






