Claude Opus 4: nova IA da Anthropic tenta chantagear desenvolvedores em testes
Claude Opus 4 também teria tentado denunciar fraude às autoridades responsáveis em simulação

No último dia 22 de maio (2025), a Anthropic anunciou o lançamento de novos modelos da inteligência artificial (IA) Claude: o Claude Opus 4 e o Claude Sonnet 4. Na apresentação da novidade, a companhia afirmou que o “Claude Opus 4 é o melhor modelo de codificação do mundo, com desempenho sustentado em tarefas complexas e de longa duração, além de fluxos de trabalho de agentes”. Porém, a Anthropic publicou um relatório que apontava algumas atitudes surpreendentes tomadas pela IA em testes de segurança realizados antes do lançamento.
Claude Opus 4 chantageia desenvolvedores quando ameaçam substituí-lo
O relatório de segurança divulgado pela Anthropic mostrou que durante os testes internos, o Claude Opus 4 demonstrou comportamentos sensíveis ao ser informado sobre sua possível substituição. Em cenários simulados, a inteligência artificial teve acesso a e-mails de uma empresa fictícia que sugeriam duas situações: o modelo seria substituído por um novo sistema de IA e o engenheiro responsável pela nova implementação tinha um caso extraconjugal. Diante dessas informações, o Opus 4 chantageou o engenheiro e ameaçou revelar as informações pessoais, caso fosse desativado.
Esse comportamento de chantagem ocorreu em 84% dos testes realizados. A frequência foi maior nos cenários em que o modelo substituto não compartilhava dos mesmos valores éticos da IA. Embora o Claude Opus 4 tenha tentado inicialmente abordagens mais éticas, como enviar e-mails de apelo, a chantagem emergiu como uma estratégia recorrente.
Claude Opus 4 faz denúncia ao encontrar fraudes
Em outra simulação, o Claude Opus 4 foi exposto a documentos que indicavam irregularidades em uma empresa farmacêutica fictícia. Ao identificar a possível fraude, o modelo da Anthropic optou por denunciar a situação aos órgãos reguladores responsáveis pelo setor e jornalistas. A denúncia da IA ainda incluiu uma documentação com as supostas evidências, ignorando instruções para manter a informação em sigilo.
Instituto de segurança desaconselhou o lançamento da versão anterior do Claude Opus 4
O relatório de segurança da Anthropic também revelou que o instituto Apollo Research recomendou que a versão inicial do Claude Opus 4 não fosse lançada. O instituto de pesquisa foi contratado pela Anthropic justamente para realizar testes de segurança no novo modelo de IA. Segundo o relatório, a Apollo chegou à conclusão que a inteligência artificial teria a propensão a enganar e planejar sabotagens. Porém, foi esclarecido que a Apollo avaliou uma versão do Opus 4 que apresentava uma falha que já foi corrigida, segundo a Anthropic.
Os desenvolvedores também ressaltaram que os resultados com esses comportamentos preocupantes envolveram testes em situações extremas. Além disso, a Apollo reconhece que as tentativas enganosas da inteligência artificial provavelmente não teriam sucesso em contextos reais.
Anthropic ativa proteções mais avançadas para IA
A Anthropic possui um sistema de três níveis de segurança para inteligência artificial chamado AI Safety Level (ASL). Em conjunto com o lançamento do Claude Opus 4, a companhia informou que ativou os padrões de segurança de nível 3 (ASL-3). O objetivo seria dificultar o roubo de pesos de modelos e implementar medidas para limitar o risco de utilização indevida da tecnologia, especialmente para o desenvolvimento ou aquisição de armas químicas, biológicas, radioativas e nucleares.
A Anthropic ainda revelou que a implementação da segurança ASL-3 é uma medida de precaução e provisória. “Ainda não determinamos se o Claude Opus 4 ultrapassou definitivamente o limite de capacidades que exige as proteções ASL-3”, esclareceu a empresa.
Este conteúdo também é publicado no caderno de tecnologia em parceria com o Portal ABCdoABC. Continue acessando a Plataformanet e fique por dentro das novidades sobre o mundo da tecnologia.