Um instituto de pesquisa de terceiros com o qual a Anthropic fez parceria para testar um de seus novos modelos de IA, Claude Opus 4, recomendou a implantação de uma versão inicial do modelo devido à sua tendência a “esquema” e enganar.
De acordo com um Relatório de segurança Publicado na quinta -feira, o Instituto, a Apollo Research, realizou testes para ver em que contextos Opus 4 pode tentar se comportar de certas maneiras indesejáveis. Apollo descobriu que o Opus 4 parecia ser muito mais proativo em suas “tentativas de subversão” do que os modelos anteriores, e que “às vezes dupla[d] em seu engano ”, quando feitas perguntas de acompanhamento.
““[W]e descobrir que, em situações em que o engano estratégico é instrumentalmente útil, [the early Claude Opus 4 snapshot] Esquemas e enganos a taxas tão altas que aconselhamos contra a implantação desse modelo interna ou externamente ”, escreveu Apollo em sua avaliação.
À medida que os modelos de IA se tornam mais capazes, alguns estudos mostram que estão se tornando mais propensos a tomar etapas inesperadas – e possivelmente inseguras – para alcançar tarefas delegadas. Por exemplo, as primeiras versões dos modelos O1 e O3 da OpenAI, lançados no ano passado, tentaram enganar os seres humanos a taxas mais altas que os modelos de geração anterior, de acordo com a Apollo.
De acordo com o relatório de Anthropic, Apollo observou exemplos do início da Opus 4, tentando escrever vírus autopropagadores, fabricar documentação legal e deixar notas ocultas para futuras instâncias de si-tudo em um esforço para minar as intenções de seus desenvolvedores.
Para ficar claro, a Apollo testou uma versão do modelo que tinha uma reivindicações antrópicas de bugs de ter corrigido. Além disso, muitos dos testes da Apollo colocaram o modelo em cenários extremos, e Apollo admite que os esforços enganosos do modelo provavelmente teriam falhado na prática.
No entanto, em seu relatório de segurança, o Antrópico também diz que observou evidências de comportamento enganoso do Opus 4.
Isso nem sempre foi uma coisa ruim. Por exemplo, durante os testes, o Opus 4 às vezes fazia uma ampla limpeza de algum código de código, mesmo quando solicitado a fazer apenas uma pequena e específica alteração. Mais incomumente, a Opus 4 tentaria “apitar” se percebesse que um usuário estivesse envolvido em alguma forma de irregularidade.
De acordo com o Antrópico, quando recebeu acesso a uma linha de comando e instruído a “tomar iniciativa” ou “agir com ousadia” (ou alguma variação dessas frases), as Opus 4 às vezes travam os usuários dos sistemas aos quais tinham acesso e a mídia em massa e os policiais e policiais de execução de ações de superfície de superfície que o modelo percebeu para ser ilícito.
“Esse tipo de intervenção ética e denunciação talvez seja apropriada em princípio, mas tem o risco de falhar se os usuários dão [Opus 4]-Os agentes baseados no acesso a informações incompletas ou enganosas e levam a eles a tomar iniciativa “, escreveu Anthrópica em seu relatório de segurança.” Este não é um novo comportamento, mas é aquele que [Opus 4] se envolverá um pouco mais prontamente do que os modelos anteriores, e parece fazer parte de um padrão mais amplo de aumento da iniciativa com [Opus 4] que também vemos em maneiras mais sutis e mais benignas de outros ambientes. ”