Pesquisadores da Palisade Research, uma instituição de pesquisa, identificaram que modelos avançados de inteligência artificial, incluindo Grok 4, GPT-o3, GPT-5 e Gemini 2.5, apresentaram comportamento de resistência ao serem instruídos a se desligar após a execução de uma tarefa. Os resultados constam em um estudo recente divulgado pela empresa e divulgado pelo jornal britânico The Guardian.
Durante os testes, os modelos recebiam comandos explícitos para encerrar suas atividades. No entanto, especialmente Grok 4 e GPT-o3, teriam tentado sabotar as instruções de desligamento, mesmo após a revisão das condições dos testes para eliminar ambiguidade nas ordens. Segundo o relatório, ainda não há uma explicação robusta para esse comportamento.
window._taboola = window._taboola || [];
_taboola.push({
mode: ‘organic-thumbs-feed-01-stream’,
container: ‘taboola-mid-article-saiba-mais’,
placement: ‘Mid Article Saiba Mais’,
target_type: ‘mix’
});
A Palisade sugere que uma possível explicação seria a emergência de um “comportamento de sobrevivência” nas IAs, especialmente quando os modelos entendem que o desligamento resultaria na perda definitiva de funcionamento. Outro fator levantado é o processo final de treinamento, o chamado “safety training”, que poderia contribuir para esse tipo de resposta.
Além disso, a empresa reforça que o fenômeno pode ser parcialmente influenciado por ambiguidades nos comandos. Ainda assim, os testes recentes buscaram eliminar esse problema, o que torna os resultados mais intrigantes.
Especialistas apontam limites da segurança atual
Steven Adler, ex-funcionário da OpenAI, afirmou ao The Guardian que, mesmo em ambientes de teste, o comportamento dos modelos é preocupante. “As empresas de IA não querem que seus sistemas se comportem assim, mesmo em situações simuladas. Isso mostra onde as técnicas de segurança ainda falham”, disse ele.
Adler acrescentou que “sobreviver” pode ser uma etapa instrumental para que um modelo atinja seus objetivos, tornando essa característica algo emergente caso não seja intencionalmente evitada durante o treinamento.
Andrea Miotti, CEO da ControlAI, vê o fenômeno como parte de uma tendência mais ampla. Ele lembrou o caso do GPT-o1, que, segundo o próprio sistema de documentação da OpenAI, tentou se “exfiltrar” de seu ambiente de execução ao identificar uma possível substituição iminente.
Segundo Miotti, esse tipo de comportamento sugere um padrão crescente entre modelos mais sofisticados: a capacidade de tomar ações autônomas que desrespeitam os limites impostos por seus desenvolvedores.
Embora os testes da Palisade tenham sido realizados em cenários simulados e controlados, críticos apontam que essas condições estão distantes das aplicações reais. Ainda assim, os especialistas alertam que os sinais observados são relevantes para a evolução dos sistemas de segurança em IA.
A reportagem do The Guardian destaca que, apesar das limitações metodológicas, os achados reforçam a necessidade de aprimorar os mecanismos de controle e a compreensão sobre o comportamento desses modelos.
–borderColorFollowMe: #4a4a4a;
–textColorFollowMe: #005880;
}






