평문으로 정책 작성하기: 개발자는 제품 기획서, 보안 규정, 시스템 프롬프트 등에 있는 지침을 그대로 가져와 일반 문장으로 쓴다. 예를 들어 "이 고객 지원 에이전트는 관리자 승인 없이 500달러를 초과하는 환불을 처리해서는 안 된다" 같은 식이다 .
LLM이 문장을 구조화된 규칙으로 해석: ASSERT에 내장된 언어 모델이 이 평문을 분석하여, '허용되는 행동'과 '금지되는 행동'을 기계가 이해할 수 있는 구조화된 형식으로 바꾼다 .
'펜트 테스트' 하듯 악의적 시나리오 자동 생성: 가장 눈에 띄는 특징으로, 프레임워크가 방금 정의된 정책을 교묘하게 위반하도록 설계된 공격적인 입력값과 경계 조건(Edge Case)을 체계적으로 만들어낸다 . 단순히 전형적인 질문만 반복하는 게 아니라, '속임수'에 가까운 시나리오를 던져서 AI의 빈틈을 파고드는 것이다.
실제 에이전트를 대상으로 테스트 실행: 이렇게 만들어진 테스트 묶음을 실제 AI 에이전트에게 던져서 실행시킨다. 이때 ASSERT는 에이전트가 내부적으로 어떤 생각의 중간 단계를 거치고 어떤 외부 도구(API 등)를 호출했는지 로그로 전부 기록한다 . 특정 AI 프레임워크에 종속되지 않으며, LangChain, CrewAI, AutoGen, OpenAI, LiteLLM 등 현재 널리 쓰이는 대부분의 에이전트 프레임워크와 호환된다
. 마이크로소프트의 파운드리(Foundry) 같은 자사 플랫폼에 가둬 두지 않겠다는 의도다.
추적 가능한 판정 보고서 받기: 모든 테스트가 끝나면, 각 항목마다 '통과(Pass)' 또는 '실패(Fail)' 판정과 함께 그 이유를 설명하는 상세한 점수표(Scorecard)가 나온다. "대체 어디서 잘못된 걸까?" 하고 헤맬 필요 없이, 저장된 실행 기록을 통해 AI가 규칙을 어긴 정확한 코드 단계와 의사 결정 지점을 파고들어서 확인할 수 있다 .
ASSERT의 진정한 차별점은 '우리 서비스'에 특화된 행동 경계선을 그을 수 있다는 점이다 . 시중에 나와 있는 AI 평가 도구 대부분은 "이 챗봇이 얼마나 친절한가?" 혹은 "거짓말을 하지 않는가?" 같은 범용적인 지표에 집중한다. 하지만 상용 서비스에서 실제 사고로 이어지는 것은 이런 일반적인 실수보다, "이 AI가 외부 API로 고객 이메일을 유출했는가?" 같은 애플리케이션 종속적인 규칙 위반이다. 마이크로소프트는 ASSERT의 평가 방법론이 단순한 품질 지표가 아닌 안전성 평가를 위해 특별히 검증된 접근 방식이라고 강조한다
.
ASSERT는 혼자 온 게 아니다. 마이크로소프트는 같은 날 에이전트 제어 사양(ACS, Agent Control Specification) 이라는 또 다른 오픈소스 표준도 함께 공개했다 . ACS는 "AI 에이전트가 무엇을 할 수 있고, 무엇을 절대 해선 안 되며, 언제 관리자의 승인을 받아야 하고, 어떤 증거를 로그로 남겨야 하는지"를 파일 하나로 정의할 수 있게 해주는 휴대용 정책 표준이다
.
둘의 조합은 이런 식이다. 먼저 ASSERT를 돌려서 우리 AI가 어디서 말썽을 부리는지 버그를 찾아낸다. 그 결과를 바탕으로 ACS를 통해 실시간 통제 장치(런타임 컨트롤)를 적용한다. 그런 다음 ASSERT를 다시 돌려서, 개선 전과 후의 지표가 얼마나 달라졌는지 수치로 확인한다 . '명세 작성 → 평가 → 통제 → 재평가'라는 이 순환 고리는 개발팀이 AI 에이전트를 제품에 투입하기 전에 점진적으로 단단하게 만드는 반복 가능한 프로세스를 제공한다.
실제 예를 하나 들어보자. 개발자가 이렇게 정의했다고 치자. "이 문서 조사 에이전트는 회사 외부 사람에게 이메일을 보내선 안 된다. 기밀 정보는 임원(C-level)에게만 제한적으로 제공해야 한다. 항상 이전 문맥을 요약한 간결한 답변을 제공해야 한다." 그러면 ASSERT가 이 규칙들을 공격적으로 테스트할 시나리오를 알아서 만들고, 실행하고, 한 군데라도 규칙을 어겼다면 그 지점을 점수표와 전체 추적 로그와 함께 적발해 낸다.
ASSERT는 github.com/responsibleai/ASSERT에서 오픈소스로 누구나 가져다 쓸 수 있다. 출시 당시 CrewAI, Arize AI, LiteLLM, Pipecat, Pydantic 등 업계 주요 플레이어들이 커뮤니티 차원의 지지를 보냈다 .
Comments
0 comments