Claude Opus 4.7은 숫자 하나로 요약하기보다, 복잡한 추론과 에이전트형 코딩, 긴 작업 흐름에 맞춰 평가해야 하는 모델에 가깝다. Anthropic 문서는 Claude Opus 4.7을 복잡한 추론과 agentic coding을 위한 자사의 가장 강력한 일반 제공 모델로 설명한다 [1]. AWS도 Opus 4.7을 Opus 4.6보다 개선된 모델로 소개하며, 실제 운영 환경의 agentic coding, 지식 작업, 시각 이해, 장시간 작업 흐름에서 개선이 있다고 설명한다 [
7].
개발자 입장에서 가장 눈에 띄는 숫자는 **SWE-bench Verified 87.6%**다. 이 수치는 AWS가 Anthropic 데이터를 바탕으로 제시한 결과다 [7]. 다만 이 숫자는 출발점이지 결론이 아니다. AWS는 Opus 4.7을 제대로 활용하려면 프롬프트 변경이나 평가 하니스 조정이 필요할 수 있다고도 덧붙였다 [
7].
핵심 벤치마크 결과
| 영역 | 벤치마크 | 보고된 결과 | 어떻게 읽을까 |
|---|---|---|---|
| 코딩·에이전트 | SWE-bench Verified | 87.6% | Claude Opus 4.7의 소프트웨어 과제 해결 능력을 볼 때 가장 많이 주목받는 수치다 [ |
| 코딩·에이전트 | SWE-bench Pro | 64.3% | SWE-bench Verified만으로 부족할 때 함께 봐야 하는 보완 지표다 [ |
| 터미널 에이전트 | Terminal-Bench 2.0 | 69.4% | 모델이 터미널형 환경이나 도구를 다루는 사용 사례에 더 가까운 참고 지표다 [ |
| 금융 에이전트 | Finance Agent v1.1 | 64.4% | 금융 분석이나 자동화 흐름을 평가할 때 더 관련성이 있는 수치다 [ |
| 내부 코딩 평가 | 93개 과제 벤치마크 | Opus 4.6 대비 해결률 +13% | 특정 내부 평가에서의 상대 개선으로 읽어야 하며, 모든 프로젝트에서 같은 폭의 개선을 뜻하지는 않는다 [ |
| 내부 research-agent 평가 | 전체 점수 | 0.715 | Anthropic은 자체 research-agent 벤치마크에서 멀티스텝 작업에 강한 결과라고 설명한다 [ |
| 내부 research-agent 평가 | General Finance | 0.813, Opus 4.6은 0.767 | Anthropic의 내부 금융 모듈에서 Opus 4.6 대비 개선을 보였다는 의미다 [ |
SWE-bench Verified 87.6%는 무엇을 말하나
AI 코딩 에이전트를 비교하는 팀이라면 SWE-bench Verified 87.6%가 가장 먼저 눈에 들어올 수밖에 없다. AWS가 Claude Opus 4.7에 대해 제시한 이 수치는 소프트웨어 작업 해결 능력에서 강한 신호로 읽힌다 [7]. Anthropic이 Opus 4.7을 복잡한 추론과 에이전트형 코딩에 강한 모델로 설명하는 점과도 같은 방향이다 [
1].
하지만 87.6%를 “모든 작업에서 이 정도로 잘한다”는 뜻으로 받아들이면 곤란하다. SWE-bench Verified는 특정 유형의 소프트웨어 과제 해결 능력을 보는 지표다. 터미널 조작, 금융 분석, 시각 이해, 긴 문맥의 리서치, 사내 업무 자동화까지 한 번에 설명해 주는 만능 점수는 아니다.
그래서 기술 도입을 검토한다면 SWE-bench Verified만 보지 말고 SWE-bench Pro와 Terminal-Bench 2.0도 함께 보는 편이 안전하다 [6][
7]. 실제 서비스에 붙일 모델이라면 벤치마크 표보다 더 중요한 것은 자기 팀의 프롬프트, 도구, 평가 환경에서 같은 흐름을 재현해 보는 일이다.
왜 출처마다 숫자가 다를까
Claude Opus 4.7의 SWE-bench Verified 점수는 출처에 따라 다르게 제시된다. 한 2차 출처는 SWE-bench Verified 82.4%를 보고했지만, AWS는 Claude Opus 4.7의 같은 이름의 벤치마크에 대해 87.6%를 제시했다 [2][
7].
이 차이는 작지 않다. 그래서 벤치마크를 인용할 때는 단순히 “몇 퍼센트”라고 쓰기보다 벤치마크 이름, 점수, 출처를 함께 적어야 한다. 특히 AWS가 프롬프트 변경과 하니스 조정이 필요할 수 있다고 밝힌 만큼, 평가 설정이 관측된 성능에 영향을 줄 수 있다는 점도 함께 봐야 한다 [7].
사용 사례별로 어떤 지표를 봐야 하나
소프트웨어 개발이 핵심이라면 SWE-bench Verified가 출발점이다. 다만 난도가 다르거나 더 넓은 소프트웨어 작업을 가정한다면 SWE-bench Pro도 함께 확인하는 편이 좋다 [6][
7].
터미널이나 도구를 다루는 에이전트를 만들고 있다면 Terminal-Bench 2.0이 더 직접적인 참고가 된다. 모델이 단순히 답변을 생성하는 것을 넘어, 환경과 상호작용해야 하는 흐름에 가까운 지표이기 때문이다 [6][
7].
금융 분석이나 리서치 자동화가 목적이라면 Anthropic의 내부 research-agent 결과도 참고할 만하다. Opus 4.7은 해당 내부 평가에서 전체 점수 0.715를 기록했고, General Finance 모듈에서는 0.813을 얻어 Opus 4.6의 0.767보다 높았다 [8]. 다만 이는 내부 벤치마크이므로 독립 검증 결과와는 구분해서 읽어야 한다.
장시간 이어지는 기업 업무 흐름을 염두에 둔다면 벤치마크 숫자만으로는 부족하다. AWS는 Opus 4.7이 모호한 상황에서 더 잘 작동하고, 문제 해결이 더 철저하며, 지시를 더 정확히 따른다고 설명한다 [7]. 이런 유형의 평가는 공개 점수보다 실제 업무 흐름을 그대로 재현한 테스트에서 더 분명해진다.
결론
Claude Opus 4.7의 가장 강하게 인용되는 벤치마크 수치는 **SWE-bench Verified 87.6%**다. 특히 코딩 에이전트 성능을 볼 때 중요한 숫자다 [7]. 그러나 그것만으로 모델 전체를 평가하기는 어렵다. 함께 제시된 수치에는 SWE-bench Pro 64.3%, Terminal-Bench 2.0 69.4%, Finance Agent v1.1 64.4%가 있으며, Anthropic은 내부 research-agent 평가에서도 멀티스텝 작업과 금융 모듈의 개선을 강조한다 [
7][
8].
따라서 Claude Opus 4.7을 비교할 때의 핵심 질문은 “벤치마크가 몇 점인가”가 아니라 “이 벤치마크가 우리 작업 흐름과 얼마나 닮았는가”다. 코딩이라면 SWE-bench Verified가 좋은 출발점이고, 터미널 에이전트·금융·리서치·긴 업무 자동화라면 그에 맞는 보조 지표와 자체 평가 환경을 함께 봐야 한다.




