| SWE-Bench Pro | 58.6% | 64.3% | 실제 GitHub 이슈 해결형 코딩 과제에서는 Claude Opus 4.7이 앞섭니다. OpenAI도 GPT-5.5의 SWE-Bench Pro 점수를 58.6%로 공개했습니다 |
| GPQA Diamond | 93.6% | 94.2% | Claude가 0.6%포인트 앞서지만 차이가 작습니다. 모든 추론 작업의 결정적 우위로 해석하기는 어렵습니다 |
| BrowseComp | 84.4% | 79.3% | 브라우징·검색형 작업에서는 GPT-5.5가 앞서는 수치가 Vellum과 Mashable 모두에 나옵니다 |
| GDPval | 84.9% | 80.3% | Vellum 표에서는 GPT-5.5가 앞섭니다 |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5가 근소하게 앞서지만 차이가 작아 실제 워크플로 재검증이 필요합니다 |
| MCP Atlas | 75.3% | 79.1% | 도구 오케스트레이션 성격의 이 항목에서는 Claude Opus 4.7이 앞섭니다 |
| FrontierMath T1–3 | 51.7% | 43.8% | Vellum 표에서는 GPT-5.5가 앞섭니다 |
| FinanceAgent v1.1 | 공개 자료에서 완전한 대조 수치 부족 | DataCamp 기준 64.4% | LLM Stats는 Claude가 FinanceAgent v1.1에서 앞선다고 정리하고, DataCamp는 Claude Opus 4.7의 점수를 64.4%로 제시합니다. 다만 여기서는 GPT-5.5와의 완전한 쌍 비교가 부족합니다 |
| Humanity’s Last Exam | 출처별로 다름 | 출처별로 다름 | 동일 조건 재현 없이 타이브레이커로 쓰기 어렵습니다. LLM Stats, Mashable, o-mega가 서로 다른 신호를 냅니다 |
LLM Stats식으로 묶어 보면, 두 제공사가 모두 보고한 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 정리됩니다. 같은 요약에서 Claude의 우위는 reasoning-heavy 및 review-grade 테스트에, GPT-5.5의 우위는 긴 도구 사용과 shell-driven task에 모여 있다고 설명합니다 . 하지만 Humanity’s Last Exam처럼 출처 간 수치가 충돌하는 항목까지 한 번에 정리해 주지는 못합니다
.
‘코딩 모델’이라고 해도 실제 현장의 작업은 꽤 다릅니다. 하나는 터미널에서 테스트를 돌리고, 로그를 읽고, 파일을 고친 뒤 다시 실행하는 에이전트형 작업입니다. 다른 하나는 실제 저장소의 이슈를 이해하고 안정적인 패치를 만드는 소프트웨어 엔지니어링형 작업입니다.
전자의 기준으로 보면 GPT-5.5가 강한 후보입니다. GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 Claude Opus 4.7의 69.4%보다 높습니다 . OpenAI는 Terminal-Bench 2.0을 복잡한 커맨드라인 워크플로, 계획, 반복, 도구 조율을 보는 평가라고 설명합니다
. CLI 코파일럿, DevOps 보조 도구, 테스트 루프를 돌리는 코딩 에이전트라면 이 벤치마크의 비중을 높게 두는 편이 합리적입니다.
반대로 실제 GitHub 이슈 해결에 가까운 작업에서는 Claude Opus 4.7이 앞섭니다. SWE-Bench Pro에서 Claude Opus 4.7은 64.3%, GPT-5.5는 58.6%입니다 . OpenAI는 SWE-Bench Pro가 실제 GitHub 이슈 해결 능력을 평가한다고 설명합니다
. 버그 수정, 기존 저장소 코드 변경, 리뷰 수준의 소프트웨어 작업에 가깝다면 Claude Opus 4.7을 초기 실험 후보에 넣는 것이 좋습니다.
SWE-Bench Verified는 이 자료 묶음만으로 승자를 확정하기 어렵습니다. MindStudio는 Claude Opus 4.7 점수를 82.4%로 적고, APIyi와 DataCamp는 87.6%로 제시합니다. 제공된 출처들만으로는 같은 조건에서 GPT-5.5와 Claude Opus 4.7을 안정적으로 맞붙인 한 쌍의 수치가 충분하지 않습니다 .
에이전트형 워크플로에서는 GPT-5.5 쪽에 긍정적인 신호가 많습니다. Vellum 표에서 GPT-5.5는 BrowseComp 84.4% 대 79.3%, GDPval 84.9% 대 80.3%, OSWorld-Verified 78.7% 대 78.0%로 Claude Opus 4.7을 앞섭니다 . Mashable도 BrowseComp에서 같은 84.4% 대 79.3% 수치를 제시합니다
. LLM Stats는 GPT-5.5가 CyberGym에서도 앞선다고 정리하지만, 제공된 스니펫에는 구체적인 백분율이 드러나지 않습니다
.
Claude Opus 4.7도 분명한 강점이 있습니다. Vellum 표에서 Claude는 MCP Atlas 79.1%로 GPT-5.5의 75.3%를 앞섭니다 . LLM Stats는 Claude가 FinanceAgent v1.1에서 앞선다고 정리하고, DataCamp는 Claude Opus 4.7의 FinanceAgent v1.1 점수를 64.4%로 제시합니다
. Anthropic 역시 Claude Opus 4.7을 코딩, 에이전트, 비전, 다단계 작업에서 더 강해진 Opus 모델로 설명합니다
.
따라서 워크플로가 셸 실행, 브라우징, OS식 자동화에 가깝다면 GPT-5.5를 먼저 시험해볼 만합니다. 반대로 구조화된 도구 오케스트레이션, MCP 계열 작업, 금융 에이전트 작업이라면 Claude Opus 4.7을 일찍 제외하지 말고 직접 벤치마크해야 합니다.
GPQA Diamond에서는 Claude Opus 4.7이 94.2%, GPT-5.5가 93.6%입니다 . Claude의 우위는 맞지만 0.6%포인트 차이입니다. 과학 질의응답, 전문 지식 분석, 긴 추론형 업무라면 공개 점수만 보고 끝내기보다 실제 질문 세트로 두 모델을 함께 돌려 보는 편이 낫습니다.
Humanity’s Last Exam, 줄여서 HLE는 특히 조심해서 읽어야 합니다. LLM Stats는 Claude Opus 4.7이 도구 없는 HLE와 도구 사용 HLE 모두에서 앞선다고 정리합니다 . 그러나 Mashable은 도구 없는 HLE에서 GPT-5.5 40.6%, Opus 4.7 31.2%로 GPT-5.5가 앞서고, 도구 사용 HLE에서는 Claude가 54.7% 대 52.2%로 앞선다고 적습니다
. o-mega는 또 다른 HLE 수치 묶음을 제시합니다
. 출처가 이렇게 엇갈릴 때는 같은 세팅으로 직접 재현하지 않는 한 HLE를 최종 판정 기준으로 삼기 어렵습니다.
GPT-5.5를 먼저 시험할 만한 경우는 터미널 에이전트, 셸 워크플로, 테스트 루프, 다단계 자동화를 중시할 때입니다. Terminal-Bench 2.0 수치가 GPT-5.5 쪽으로 크게 기울어져 있기 때문입니다 . 브라우징·검색형 워크플로, GDPval, OSWorld-Verified, FrontierMath T1–3을 중요하게 본다면 Vellum과 Mashable 표에서 GPT-5.5가 좋은 출발점입니다
.
Claude Opus 4.7을 먼저 시험할 만한 경우는 SWE-Bench Pro와 비슷한 실제 소프트웨어 이슈 해결이 중요할 때입니다 . GPQA형 과학 추론, MCP·도구 오케스트레이션, 금융 에이전트 워크플로도 Claude를 후보군에 넣어야 할 영역입니다
.
가장 안전한 방식은 리더보드 하나로 결정하지 않는 것입니다. 사내 작업을 네 묶음으로 나누는 것이 좋습니다. 첫째, 실제 저장소 안에서의 코딩. 둘째, 터미널·에이전트 자동화. 셋째, 도구 없는 추론. 넷째, 도구를 쓰는 워크플로입니다. 각 묶음에서 같은 프롬프트, 같은 도구 권한, 같은 샘플링 설정, 같은 reasoning effort, 같은 채점 기준을 적용해 비교해야 합니다.
공개 벤치마크는 어디서 출발할지 알려주는 지도에 가깝습니다. 실제 제품에 어떤 모델을 넣을지는 내부 평가가 결정해야 합니다. 특히 일부 공개 점수는 자체 보고이거나 독립 검증이 끝나지 않았을 수 있다는 점을 감안해야 합니다 .
Comments
0 comments