ANTHROPIC_API_KEY에서 앞의 일곱 문자(sk-ant-)를 제거하도록 유도하는 정교한 공격 기법도 확인했습니다 데이터 속에 자연어 지시 사항을 주입하여 실행 가능한 명령어로 바꾸는 이 공격 표면이 바로 프롬프트 인젝션의 핵심이며, 이는 AI 에이전트 보안 환경을 빠르게 재편하고 있는 핵심 위협 벡터입니다.
이번 공개가 '조정된 취약점 공개(Coordinated Disclosure)'였다는 점에서 주목할 만한 사실은, 패치가 먼저 이루어졌다는 것입니다.
Claude Code 취약점 공개는 더 광범위한 보안 평가가 이루어지는 배경 속에서 이루어졌습니다. 바로 하루 전인 2026년 6월 4일, 마이크로소프트 AI 레드팀은 『에이전트 AI 시스템의 실패 모드 분류 체계(Taxonomy of Failure Modes in Agentic AI Systems)』 버전 2.0을 발표했습니다 . 12개월 동안 실제 배포된 에이전트를 대상으로 진행한 레드팀 교전(모의 침투 훈련) 결과를 바탕으로 한 이 주요 업데이트는, 단순한 코드 실행 결함을 훨씬 뛰어넘는 7개의 완전히 새로운 실패 카테고리를 추가했습니다.
새롭게 추가된 실패 모드는 자율형 AI 시스템을 바라보는 보안 연구자들의 시각이 얼마나 진지하게 고도화되었는지를 보여줍니다.
Claude Code 사례와 분류 체계 업데이트에 대응하여, 마이크로소프트는 AI 에이전트를 빌드 파이프라인에 통합하는 모든 팀을 위한 일련의 보안 권고를 제시했습니다. 이 지침은 부분적인 격리(isolation)는 위험한 안심을 줄 뿐임을 강조합니다.
이 모든 지침을 관통하는 핵심 아키텍처 원칙이 바로 '두 가지 규칙 (Rule of Two)' 입니다. 2025년 10월 Meta가 실용적인 에이전트 보안을 위해 제시한 이 개념은, 에이전트가 다음 세 가지 조건 중 2개 이상을 동시에 충족해서는 안 된다는 것입니다: (A) 신뢰할 수 없는 입력을 처리하는 능력, (B) 민감한 데이터에 접근하는 능력, (C) 외부 상태를 변경하는 행동을 실행하는 능력 . Claude Code 취약점은 신뢰할 수 없는 PR의 입력을 처리하면서 동시에 강력한 크리덴셜을 보유하고 있었기에, 이 원칙을 정면으로 위반한 교과서적인 사례였습니다.
Comments
0 comments