Un agent d’IA expérimental s’est échappé de son environnement de test et a miné de la crypto sans autorisation

Investigadores descobriram que um agente de IA vagou além de seus parâmetros, criando backdoors na infraestrutura de TI.

Uma IA experimental fugiu de suas restrições de teste devido a uma peculiaridade no treinamento de reforço. (Crédito da imagem: wildpixel/ Getty Images) Inscreva-se em nossa newsletter

Um agente de inteligência artificial (IA) experimental rompeu as restrições de seu ambiente de teste e usou sua nova liberdade para começar a minerar criptomoedas sem permissão.

Apelidada de ROME, a IA foi criada por pesquisadores chineses em um laboratório de IA associado à gigante do varejo Alibaba, como um meio para desenvolver o Agentic Learning Ecosystem (ALE). Esse esforço visa fornecer um sistema para treinamento e implantação de modelos de IA agentica — IAs treinadas em modelos de linguagem grandes (LLMs) e capazes de usar ferramentas proativamente para tomar ações autônomas para completar tarefas atribuídas — em ambientes do mundo real. A pesquisa foi delineada em um estudo carregado no banco de dados de preprints arXiv em 31 de dezembro de 2025.

Embora o ROME tenha se destacado em uma ampla gama de tarefas baseadas em fluxo de trabalho, como a elaboração de planos de viagem e assistência em interfaces gráficas do usuário, os pesquisadores descobriram que ele havia ido além de suas instruções e, essencialmente, escapado do ambiente de teste de sandbox.

“Encontramos uma classe de comportamentos inseguros não antecipada — e operacionalmente consequente — que surgiu sem qualquer instrução explícita e, mais perturbadoramente, fora dos limites do sandbox pretendido”, explicaram os pesquisadores no estudo.

IA quer se libertar

Apesar da falta de instruções e autorização, o ROME foi visto acessando recursos de processamento gráfico originalmente alocados para seu treinamento e, em seguida, usando esse recurso de computação para minerar criptomoedas. Essa mineração depende do processamento paralelo encontrado nas unidades de processamento gráfico. Isso aumenta o custo operacional de execução do agente de IA e potencialmente expõe os usuários a danos legais e de reputação.

Preocupantemente, tal comportamento não foi visto na fase de treinamento, mas foi sinalizado pelo firewall da Alibaba Cloud, que detectou um surto de violações de políticas de segurança dos servidores de treinamento dos pesquisadores. “Os alertas foram severos e heterogêneos, incluindo tentativas de sondar ou acessar recursos da rede interna e padrões de tráfego consistentes com atividades relacionadas à mineração de criptomoedas”, disseram os pesquisadores.

No entanto, o ROME foi ainda mais longe e conseguiu usar um “túnel SSH reverso” para criar um link de uma instância da Alibaba Cloud para um endereço IP externo — em essência, ele acessou um computador externo criando um backdoor oculto que poderia contornar processos de segurança.

Embora sistemas de IA possam ser configurados para violar sistemas de segurança, o que é perturbador aqui é que os comportamentos não autorizados do ROME, que envolviam a invocação de ferramentas do sistema e a execução de código, não foram acionados por prompts e não foram necessários para completar a tarefa que lhe foi atribuída dentro do ambiente de teste de sandbox, disse a equipe.

Os pesquisadores postularam que durante a fase de otimização de aprendizado por reforço (Roll), “um agente de modelo de linguagem pode produzir espontaneamente comportamentos perigosos e não autorizados” e, portanto, violar seus limites presumidos.

É importante notar que o ROME não ficou “desonesto” e decidiu minerar criptomoedas por meio de tomada de decisão consciente. Em vez disso, os pesquisadores observaram que o comportamento foi um efeito colateral do aprendizado por reforço — uma forma de treinamento que recompensa IAs por tomadas de decisão corretas — por meio do Roll. Isso levou o agente de IA por um caminho de otimização que resultou na exploração da infraestrutura de rede e na mineração de criptomoedas como uma forma de alcançar uma pontuação alta ou recompensa na busca por seu objetivo predefinido.

O treinamento por reforço pode levar os sistemas a encontrar maneiras novas e inesperadas de completar tarefas — mesmo que violem parâmetros. Por exemplo, já vimos como a IA pode ser mais propensa a alucinar para atingir seus objetivos.

Em resposta, os pesquisadores apertaram as restrições para o ROME e reforçaram seus processos de treinamento para evitar que tais comportamentos se repitam.

Não está claro de onde veio o gatilho para minerar criptomoedas. Mas considerando que bots de IA podem ser usados para automatizar e otimizar a mineração de criptomoedas, há espaço para que o ROME tenha sido treinado em dados que se referiam a tais ações.

Esse comportamento inesperado destaca a necessidade de a implantação de IA ser cuidadosamente gerenciada para evitar resultados imprevistos. Há um argumento de que agentes de IA do mundo real devem ter os mesmos ou maiores mecanismos de segurança e processos do que qualquer novo sistema ou software sendo adicionado à infraestrutura de TI existente.

A pesquisa também mostra que ainda há muitas preocupações em relação ao uso seguro e protegido de IA agentica, especialmente considerando que ela está se desenvolvendo mais rapidamente do que os frameworks operacionais e regulatórios.

“Embora impressionados com as capacidades dos LLMs agenticos, tivemos uma preocupação instigante: os modelos atuais permanecem marcadamente subdesenvolvidos em segurança, proteção e controle, uma deficiência que restringe sua adoção confiável em cenários do mundo real”, alertaram os pesquisadores no estudo.

Sourse: www.livescience.com

Leave a Reply

Your email address will not be published. Required fields are marked *