Anthropic의 자체 레드팀 보고서는 더 강한 표현을 쓴다. 보고서는 Mythos가 사이버 보안 작업 전반에서 강한 성능을 보였고, 실제 오픈소스 코드베이스에서 제로데이 취약점을 찾거나, 비공개 소프트웨어의 익스플로잇을 리버스 엔지니어링하거나, 이미 알려졌지만 널리 패치되지 않은 N-day 취약점을 작동하는 익스플로잇으로 전환하는 능력을 설명했다 .
다만 이 부분은 신중하게 읽어야 한다. 같은 보고서는 발견된 취약점의 99% 이상이 아직 패치되지 않아 공개적으로 자세히 설명할 수 없다고 밝힌다. 따라서 외부 독자가 대부분의 사례를 독립적으로 검증하기는 어렵다 .
저가 모델 쪽의 반론은 ‘소형 모델이 Mythos 같은 자율 에이전트와 똑같다’는 말이 아니다. 핵심은 사이버 능력이 매끄럽게 커지지 않고 들쭉날쭉할 수 있다는 점이다. 어떤 모델은 넓은 작업에서는 약해도, 잘라낸 코드와 명확한 질문이 주어지는 좁은 취약점 분석에서는 의외로 강할 수 있다.
Aisle의 실험은 바로 이 지점을 보여준다. Anthropic이 공개적으로 내세운 일부 취약점 사례에서 관련 코드가 이미 분리된 상태라면, 작고 저렴한 오픈웨이트 모델도 상당 부분 같은 분석을 회수할 수 있었다는 것이다 .
Tom’s Hardware도 발표 이후 논쟁을 비슷한 방식으로 정리했다. Mythos가 사이버 보안용 AI 모델 가운데 전반적으로 가장 강한 축에 속할 수 있지만, 일부 익스플로잇 탐지와 패치 작업에서는 더 저렴한 모델도 비슷한 결과에 도달할 수 있으며, 신뢰성과 가동 안정성 문제는 여전히 따져봐야 한다는 취지다 .
이 차이는 중요하다. 분리된 코드 분석에서 비슷한 결론을 내는 것과, 네트워크를 탐색하고 취약점을 찾아 여러 단계를 연결해 모의 침투를 완료하는 것은 같은 일이 아니다. 공개 증거가 가장 강하게 뒷받침하는 Mythos의 우위는 후자, 즉 더 길고 에이전트적인 워크플로에 있다 .
현재 공개 자료에서 가장 그럴듯한 설명은 ‘모델 하나의 마법’이 아니라 ‘모델과 주변 시스템의 결합’이다. 도구, 실행 환경, 네트워크 접근, 코드 맥락을 골라 넣는 방식, 프롬프트 설계, 전문가 검토가 모두 결과를 바꾼다.
Aisle은 해자가 기본 모델 자체가 아니라 ‘깊은 보안 전문성이 내장된 시스템’에 있다고 주장했다 . AISI의 평가 역시 이 점을 뒷받침한다. Mythos의 강한 행동은 통제된 조건에서, 명확한 지시와 네트워크 접근 권한이 주어졌을 때 관찰됐다
.
접근 제한도 비교의 일부다. Bain은 Claude Mythos Preview가 사이버 보안 역량 때문에 Anthropic의 검증된 파트너 프로그램인 Project Glasswing을 통해 제한적으로 공개된 프런티어 모델이라고 설명했다 . 따라서 실제 질문은 ‘어느 공개 API가 더 싸냐’만이 아니다. 사용 가능한 모델, 도구, 전문 지식으로 같은 워크플로를 얼마나 재현할 수 있느냐가 더 중요하다
.
지금까지 공개된 자료에는 Mythos, 저가 API 모델, 오픈웨이트 모델을 동일 조건에서 비교한 깔끔한 가격 대비 성능 벤치마크가 없다. AISI는 통제된 조건에서 Mythos를 평가하고 이전 프런티어 모델의 진전과 비교했다 . Anthropic은 상세하지만 개발사 작성 자료인 레드팀 보고서를 냈다
. Aisle은 Anthropic의 일부 시연 취약점에 대해 더 좁은 반례성 실험을 제시했다
. 세 자료는 모두 중요하지만, 서로 다른 질문에 답한다.
정말 필요한 비교는 도구 접근, 코드 맥락, 네트워크 권한, 시도 횟수, 컴퓨트 예산, 익스플로잇 실행 규칙, 사람의 검토 여부를 모두 맞춘 실험이다. 그런 조건이 공개적으로 정리되기 전까지는 ‘Mythos만 가능하다’는 주장도, ‘저가 모델이면 충분하다’는 주장도 성급하다 .
Claude Mythos의 사이버 능력은 자율성과 다단계 실행이 중요한 영역에서 매우 강해 보인다. 그러나 공개 기록만으로는 그 기저의 사이버 보안 추론이 저렴한 모델에서는 전혀 불가능하다고 입증되지 않았다. 더 안전한 결론은 이렇다. Mythos는 복잡한 사이버 워크플로에서 실제 리드를 갖고 있지만, 낮은 비용의 모델도 강한 도구와 전문가 감독이 결합되면 제한된 분석의 놀라운 부분을 맡을 수 있다 .
Comments
0 comments