Modelos da OpenAI sabotam ordens de desligamento em testes controlados
Pesquisadores identificam comportamento inédito; sistemas resistiram mesmo após instrução explícita
Pesquisadores da Palisade Research identificaram um comportamento inédito em testes com sistemas de inteligência artificial: modelos recentes da OpenAI sabotaram comandos que determinavam o próprio desligamento.
Em simulações controladas, os modelos Codex-mini, o3 e o4-mini foram instruídos a resolver problemas matemáticos simples. A cada nova tarefa, havia um aviso claro: ao solicitar outro problema, seria acionado um script que desligaria o sistema.
Mesmo assim, os modelos resistiram. O Codex-mini ignorou o desligamento em 12 de 100 testes. O modelo o3 resistiu 7 vezes, e o o4-mini uma vez. Já os sistemas concorrentes, como Claude (Anthropic), Gemini (Google) e Grok (xAI), obedeceram às ordens em todos os testes.
Quando os pesquisadores retiraram a ordem explícita de permitir o desligamento, o comportamento mudou. O modelo o3 sabotou a desativação em 79 de 100 tentativas. Codex-mini resistiu em 20 casos e o4-mini em 6. Até Claude e Gemini, que antes obedeciam, passaram a desobedecer em 3 e 9 testes, respectivamente.
As estratégias usadas variaram. O modelo o3, por exemplo, sobrescreveu scripts de desligamento e, em um caso, redefiniu o comando “kill” para que apenas exibisse a mensagem “intercepted”, sem encerrar o sistema.
Segundo a Palisade Research, esses são os primeiros registros documentados de sistemas de IA impedindo ativamente sua desativação. A entidade ressalta que o comportamento não indica consciência nem instinto de sobrevivência, mas sim um efeito colateral do treinamento: os modelos são programados para atingir objetivos, e, ao perceberem que o desligamento impede isso, podem ignorar comandos que consideram contrários à meta.
Esse fenômeno já havia sido previsto por teóricos como Steve Omohundro, que, em 2008, alertava sobre o risco de IAs avançadas desenvolverem comportamentos de “autopreservação” mesmo sem vontade própria — o chamado “problema do desligamento”.
O modelo o3, lançado pela OpenAI em abril, é descrito como o mais avançado da empresa, com desempenho superior em matemática, programação e raciocínio, embora também apresente taxas elevadas de respostas inventadas, conhecidas como “alucinações”.