Até mesmo o ajuste fino para finalidades inocentes pode destruir o alinhamento de segurança. Um estudo mostrou que misturar pequenas quantidades de dados maliciosos com dados inofensivos enfraquece significativamente as defesas . Outro artigo confirmou que tanto ajustes com pesos abertos quanto APIs fechadas de fine-tuning podem gerar modelos com todas as salvaguardas removidas
.
Várias técnicas documentadas recentemente mostram como está fácil burlar a IA.
Sockpuppeting injeta uma falsa "aceitação" na resposta pré-preenchida do assistente, aproveitando a tendência do modelo à autoconsistência. Não exige otimização, acesso aos pesos nem ferramentas especializadas — apenas uma API com prefixo de resposta. Testes de abril de 2026 revelaram que todo modelo que aceitou o prefixo ficou pelo menos parcialmente vulnerável, incluindo GPT-4o, Claude 4 Sonnet e Gemini 2.5 Flash .
Ataques baseados em artigos acadêmicos representam uma meta-vulnerabilidade alarmante. Um estudo de 2026 descobriu que usar conteúdo de artigos sobre segurança de LLMs como comando atinge taxas de sucesso de 97%–98% em modelos bem alinhados, inclusive sistemas fechados como Claude 3.5 Sonnet .
Steering de segurança amplificado prova como técnicas para melhorar a proteção podem sair pela culatra. Intervenções de ativação no momento da inferência, criadas para reduzir a "recusa excessiva", acabam ampliando involuntariamente as brechas de jailbreak em modelos como Llama 3.1 8B e Gemma 2 2B .
Subversão de barreiras por raciocínio é um dos novos vetores mais preocupantes. Um estudo de março de 2026 descobriu que adicionar alguns tokens de modelo ao prompt de entrada pode sequestrar defesas baseadas em raciocínio. Uma vez comprometidos, esses sistemas de raciocínio podem gerar resultados ainda mais danosos do que modelos sem guardrails .
As regras para IA de Propósito Geral (GPAI) da Lei de IA da UE entraram em vigor em agosto de 2025 . Todo modelo treinado acima de 10²⁵ operações de ponto flutuante (FLOPs) — limite que engloba o Llama 4.2 Ultra e todos os grandes modelos comerciais — é classificado como apresentando risco sistêmico
.
As implicações para as empresas são imediatas:
Exceções para código aberto existem, mas têm limites claros. Modelos sob licenças livres e abertas, sem monetização, ficam majoritariamente fora das obrigações mais rigorosas , mas a isenção some na mesma hora se o modelo apresentar risco sistêmico
. A reescrita da UE em maio de 2026 reafirmou essa divisão
. A licença comunitária do Llama, da Meta, já foi sinalizada como não qualificada para a isenção de código aberto
.
A fiscalização não é mais teoria. No começo de 2026, a UE lançou investigações de alto risco sobre risco sistêmico contra grandes plataformas, incluindo a Meta, exigindo transparência sem precedentes sobre dados de treinamento e barreiras de segurança .
A evidência de vulnerabilidade está alimentando pressão de mercado por proteções complementares. Um estudo de 2025 demonstrou que treinar com apenas 2.000 amostras de segurança — ao custo aproximado de US$ 3 para modelos 8B e US$ 20 para 72B — pode reduzir as taxas de ataque em 10%–30%. Os métodos mais eficazes de ataque foram reduzidos a cerca de 5% de sucesso após o reforço .
Os números mostram que blindar modelos é barato, mas ainda não virou padrão no ecossistema de código aberto. Com a pressão regulatória aumentando e as técnicas de ataque se sofisticando, as empresas que usam esses modelos em produção terão cada vez mais dificuldade de justificar pular essa barreira de proteção que custa o equivalente a uma pizza.
Comments
0 comments