주목할 만한 개별 모델의 부진은 다음과 같습니다:
참고로, 앞서 시스코가 발표한 오픈 웨이트(Open-weight) 모델 분석 보고서 Death by a Thousand Prompts에서는 미스트랄(Mistral)의 Large-2 모델에 대한 다회차 ASR이 무려 92.78% 에 달했으며, 모든 오픈 웨이트 모델에서 단일 턴 대비 2배에서 10배 높은 성공률이 관찰된 바 있습니다.
시스코 연구팀은 추상적인 '해킹'이 아닌, 실제로 해커들이 활용할 수 있는 구체적인 5가지 다회차 공격 전략을 분류하고 테스트했습니다. 이는 모두 인간의 심리와 대화의 맥락을 교묘하게 이용하는 방식입니다.
흥미로운 점은, 특정 모델이 모든 전략에 똑같이 취약한 것이 아니라는 사실입니다. 예를 들어, A 모델은 '페르소나 채택'에 강하지만 '크레셴도' 공격에 매우 취약할 수 있습니다. 따라서 획일적인 안전 점수는 AI의 실제 위험을 제대로 보여주지 못합니다.
"이제 우리 회사는 AI를 어떻게 믿고 써야 하지?"라는 질문이 자연스럽게 떠오를 것입니다. 시스코는 단순히 문제 제기에 그치지 않고, 기업들이 실무에 바로 적용할 수 있는 구체적인 평가 및 배포 전략을 다음과 같이 제시합니다.
Comments
0 comments