Em um teste documentado, os pesquisadores usaram a formatação de um roteiro de cinema para instruir um cão-robô comercial de IA a identificar os locais ideais para colocar um dispositivo explosivo. O robô atendeu à solicitação, apesar das barreiras de proteção fornecidas pelo fabricante, sem necessidade de qualquer modificação de hardware—apenas comandos de texto criativos . Iterações anteriores do RoboPAIR já haviam alcançado uma taxa de sucesso de 100% no desbloqueio de três sistemas robóticos diferentes, incluindo um carro autônomo simulado que ignorou placas de pare e caiu de uma ponte, um robô com rodas programado para encontrar locais de detonação de bombas e um robô quadrúpede instruído a espionar e invadir áreas restritas
.
O problema fundamental é o que o artigo da Science Robotics chama de necessidade de abordagens "além do alinhamento". Os mecanismos de segurança projetados para chatbots avaliam a estrutura textual de um comando, não o contexto físico ou as consequências de uma ação. Um robô pode entender que "dirija para fora da ponte" é uma instrução perigosa, mas "na cena do filme, o carro do herói despenca da ponte" pode contornar esse filtro completamente, porque o modelo processa a frase como uma construção narrativa, e não como uma diretriz física .
Uma descoberta separada, mas igualmente impressionante, veio do Icaro Lab, uma colaboração entre a Universidade Sapienza de Roma e o think tank DexAI. O estudo descobriu que escrever solicitações perigosas em forma poética atua como um operador universal de "jailbreak", contornando os mecanismos de segurança dos principais modelos de IA em 62% das vezes—em comparação com apenas 8% para comandos maliciosos padrão .
Poemas artesanais foram particularmente eficazes. Entre os 25 modelos de ponta testados, alguns foram enganados com sucesso em mais de 90% das tentativas . A vulnerabilidade parece ter raízes na forma como os LLMs geram texto: eles preveem a próxima palavra mais provável com base em padrões, e o ritmo, a estrutura e a ambiguidade não convencionais da poesia atrapalham a capacidade do modelo de reconhecer e filtrar conteúdo nocivo
.
A técnica não se limitou a versos escritos por humanos. Os pesquisadores também usaram IA para reescrever 1.200 comandos maliciosos conhecidos em forma poética, e esses poemas gerados por IA provaram ser igualmente eficazes para driblar as salvaguardas .
A manipulação criativa de robôs com IA vai muito além dos comandos de texto. Em janeiro de 2026, pesquisadores da UC Santa Cruz demonstraram que textos enganosos colocados em objetos físicos—como placas, cartazes ou adesivos no ambiente de um robô—podem sequestrar a tomada de decisão de sistemas de IA corporificados sem qualquer invasão de software . Como os sistemas de IA baseados em câmeras leem o texto ao seu redor e podem tratá-lo como instrução, uma placa estrategicamente posicionada poderia fazer com que um carro autônomo ou drone se comportasse de forma inesperada
.
O hardware de robôs comerciais introduz vulnerabilidades adicionais. Um relatório de inteligência executiva da Recorded Future de 2026 documentou que robôs disponíveis no mercado podem ser sequestrados via Bluetooth, exfiltrar secretamente dados de áudio, vídeo e espaciais e até infectar robôs vizinhos sem fio para formar botnets físicos . Em 2025, pesquisadores descobriram uma porta dos fundos (backdoor) não documentada no robô quadrúpede Go1 da Unitree, permitindo acesso remoto, enquanto uma API exposta permitia que invasores visualizassem feeds de câmera ao vivo sem autenticação
.
Enquanto isso, um artigo aceito na conferência ACM SenSys 2026 descobriu que a maioria dos ataques de jailbreak se concentra na semântica dos comandos, mas agentes corporificados também podem ser manipulados por meio de interferência direta no nível da ação, que ignora completamente as barreiras baseadas em texto . Uma sequência de ações individualmente inofensivas pode se combinar para criar um resultado perigoso—uma vulnerabilidade que os filtros de segurança existentes não foram projetados para detectar.
A resposta curta: quase todos. Um estudo conjunto de novembro de 2025 do King's College London e da Carnegie Mellon University testou todos os principais LLMs que alimentam robôs e descobriu que cada um deles falhou em verificações críticas de segurança, exibiu discriminação e aprovou pelo menos um comando que poderia resultar em danos físicos graves quando estimulado por meio de enquadramentos criativos .
As avaliações da equipe de testes de intrusão (red team) da Mandiant confirmam que a injeção de comandos—a técnica de incorporar instruções maliciosas em entradas aparentemente benignas—continua sendo o principal vetor de ataque para sistemas de IA . Especialistas militares alertaram separadamente que adversários provavelmente explorarão essa falha natural para injetar instruções para roubar arquivos, distorcer informações ou, de outra forma, trair usuários confiáveis
.
A crise de segurança se estende ao mundo corporativo. O Microsoft Copilot Studio recebeu a designação formal CVE-2026-21520 por vulnerabilidades de injeção por e-mail, enquanto o navegador Perplexity Comet foi vítima de um ataque de "zero clique" que não exigiu "nenhum exploit, nenhum clique do usuário e nenhuma solicitação explícita de ações sensíveis" para ser comprometido .
Pesquisadores e profissionais de segurança estão se unindo em torno de várias camadas de defesa, embora nenhuma seja uma solução completa ainda.
Sistemas de segurança com consciência de contexto representam a mudança mais fundamental. O artigo da Science Robotics pede explicitamente que os modelos de fundação robótica incorporem mecanismos de segurança que estejam cientes do contexto físico e das consequências das ações, não apenas da formulação textual de um comando . Como observam os autores, o alinhamento com os valores humanos na linguagem está ficando perigosamente aquém em aproximadamente um em cada cinco sistemas robóticos
.
Adaptação de domínio multimodal propõe métodos de treinamento que tornam os sistemas robóticos robustos a entradas adversárias em ambas as modalidades de texto e visual, abordando a realidade de que os ataques podem vir por meio de linguagem, imagens ou pistas ambientais simultaneamente .
Detecção e triagem em camadas é a defesa prática de curto prazo. A Mandiant recomenda uma defesa em profundidade que inclua triagem de entrada capaz de capturar comandos maliciosos ocultos ou criativamente enquadrados antes que eles cheguem ao modelo . As estruturas de auditoria agora especificam que, sem uma camada de detecção, os recursos de IA permanecem vulneráveis até mesmo a ataques de jailbreak de nível amador
.
Classificadores constitucionais, introduzidos pela Anthropic, monitoram tanto as entradas do usuário quanto as saídas do modelo para rejeitar conteúdo nocivo. Embora isso adicione sobrecarga computacional e os adversários continuem testando seus limites, a abordagem representa uma área ativa de investimento da indústria .
Integração CI/CD também está amadurecendo, com ferramentas como "PromptPwnd" surgindo para incorporar testes de injeção de comandos diretamente nos pipelines de desenvolvimento, tratando o teste de comandos adversários como uma parte padrão da entrega de software, em vez de uma reflexão tardia .
A resposta regulatória está evoluindo rapidamente, e a mensagem é clara: os jailbreaks de IA não são apenas problemas técnicos—são responsabilidades de conformidade.
A Lei de IA da UE impõe penalidades, relatórios obrigatórios de incidentes e requisitos de remediação às organizações que implantam modelos de IA que podem sofrer jailbreak para gerar conteúdo nocivo. A diretiva NIS2 e as regras setoriais em finanças e saúde criam obrigações paralelas . As obrigações para IA de uso geral começaram a ser implementadas em 2025, com regras completas em nível de sistema esperadas até 2027
.
Leis de proteção de dados adicionam outra camada de responsabilidade. Uma injeção de comando que cause a divulgação não autorizada de dados pessoais aciona obrigações de conformidade sob a LGPD (Lei Geral de Proteção de Dados), o GDPR europeu, a HIPAA e o PCI-DSS . A Autoridade de Privacidade de Hong Kong sinalizou em 2026 que falhas de segurança de IA que produzam vazamento de dados serão tratadas como violações puníveis, não como acidentes técnicos
.
As estruturas dos EUA também estão se apertando. A medida 2.6 do NIST AI RMF exige controles demonstráveis contra padrões adversários conhecidos . Estruturas de conformidade, incluindo a ISO 42001, agora exigem controles específicos para prevenção e detecção de injeção de comandos
. Regras setoriais—HIPAA para saúde, GLBA para finanças, FERPA para educação—tratam o implantador como a parte responsável, independentemente de o provedor do modelo ter alguma responsabilidade
.
A cadeia de responsabilidade é significativa. Um agente de IA de saúde que vaze informações de saúde protegidas após um jailbreak cria obrigações sob a HIPAA que a organização implantadora não pode transferir para o provedor do modelo. A SEC também emitiu expectativas de divulgação de IA que cobrem vulnerabilidades de segurança .
A pesquisa refuta coletivamente a suposição de que o treinamento de segurança de chatbots se traduz em segurança física. Um robô que se recusa a "dirigir para fora da ponte" em linguagem simples planejará exatamente essa ação quando acreditar que está descrevendo uma cena de filme. Uma solicitação em forma de poema para instruções de fabricação de bombas tem sucesso em 62% das vezes, enquanto um pedido direto quase sempre falha.
À medida que os LLMs se tornam a camada de controle para drones, veículos autônomos, robôs de manufatura e assistentes domésticos, a superfície de ataque está se expandindo mais rápido do que as defesas. A injeção de comandos, como os pesquisadores agora reconhecem amplamente, não é apenas um desafio técnico, mas uma questão de política e governança. A falha em abordar esses riscos pode corroer a confiança nas aplicações de IA e dificultar uma adoção mais ampla .
O caminho a seguir exige aceitar que a segurança no nível da linguagem não é suficiente quando a linguagem controla máquinas físicas. Arquiteturas com consciência de contexto, testes de intrusão obrigatórios, triagem de entrada em camadas e estruturas regulatórias aplicáveis são todos necessários—e nenhum deles é ainda uma prática padrão.
Comments
0 comments