이런 공식 자료는 두 회사가 각 모델을 어디에 배치하려는지 보여준다. 반면 GPT-5.5와 Claude Opus 4.7의 항목별 직접 비교 점수는 주로 Vellum, Kingy AI, Mashable의 제3자 요약을 기준으로 봐야 한다.
Claude가 가장 분명하게 앞서는 항목은 SWE-Bench Pro다. Claude Opus 4.7은 64.3%, GPT-5.5는 58.6%로 Claude가 5.7%p 앞선다. 핵심 업무가 실제 issue 수정, 패치 생성, 여러 파일에 걸친 의존성 이해, 복잡한 PR 리뷰라면 Claude Opus 4.7을 1차 테스트에 넣는 판단이 자연스럽다.
관련 참고 지표로는 SWE-bench Verified도 있다. BenchLM은 이를 실제 GitHub issue 해결 능력을 시험하는, 사람이 검증한 SWE-bench 하위 집합으로 설명하며 Claude Opus 4.7 Adaptive 점수를 87.6%로 제시한다. 다만 이 출처에는 GPT-5.5의 같은 조건 점수가 없으므로, 이 수치만으로 SWE-bench Verified에서 Claude가 GPT-5.5보다 반드시 앞선다고 단정할 수는 없다. 더 안전한 해석은 Claude Opus 4.7이 실제 소프트웨어 수정 업무에서 매우 강한 후보군이라는 것이다.
GPT-5.5의 가장 큰 공개 우위는 Terminal-Bench 2.0에서 나온다. GPT-5.5는 82.7%, Claude Opus 4.7은 69.4%로 차이가 13.3%p다. GPT-5.5는 BrowseComp, GDPval, OSWorld-Verified에서도 각각 84.4% 대 79.3%, 84.9% 대 80.3%, 78.7% 대 78.0%로 앞선다.
제품이 셸 명령 실행, 브라우저 탐색, 파일 시스템 조작, OS 작업, 다단계 자동화에 기대고 있다면 GPT-5.5를 먼저 올려보는 전략이 설득력 있다. 다만 이를 ‘모든 에이전트 작업은 GPT’라는 뜻으로 읽어서는 안 된다. MCP Atlas에서는 Claude Opus 4.7이 79.1%로 GPT-5.5의 75.3%보다 높고, Anthropic 공식 발표도 Claude Opus 4.7의 도구 호출과 계획 관련 개선을 강조한다.
전문 업무나 비즈니스 과제도 일방적이지 않다. Vellum의 같은 표 요약에서는 GPT-5.5가 GDPval에서 84.9% 대 80.3%로 Claude Opus 4.7을 앞선다. 반면 Kingy AI 요약에서는 FinanceAgent v1.1에서 Claude Opus 4.7이 64.4% 대 60.0%로 앞서고, OfficeQA Pro에서는 GPT-5.5가 54.1% 대 43.6%로 앞선다.
추론과 수학도 문제 유형에 따라 갈린다. GPQA Diamond에서는 Claude Opus 4.7이 94.2%, GPT-5.5가 93.6%로 Claude가 0.6%p 앞설 뿐이다. 하지만 FrontierMath T1–3에서는 GPT-5.5가 51.7%, Claude Opus 4.7이 43.8%로 GPT-5.5가 7.9%p 앞선다.
Humanity’s Last Exam은 제3자 요약의 한계를 잘 보여준다. Kingy AI의 무도구 조건 점수는 GPT-5.5 41.4%, Claude Opus 4.7 46.9%인 반면, Mashable의 무도구 조건 점수는 GPT-5.5 40.6%, Claude Opus 4.7 31.2%로 제시된다. 같은 항목의 공개 요약이 이렇게 엇갈리기 때문에, 이 글에서는 Humanity’s Last Exam을 핵심 선정 근거로 삼지 않는 편이 낫다고 본다.
주요 업무가 코드베이스 수준의 수정, 실제 GitHub issue 해결, 복잡한 PR 검토, 패치 생성이라면 Claude Opus 4.7을 먼저 테스트하자. SWE-Bench Pro와 SWE-bench Verified 관련 자료 모두 Claude Opus 4.7이 소프트웨어 수정 영역에서 강한 후보라는 판단을 뒷받침한다.
주요 업무가 터미널 실행, 브라우징 기반 조사, OS 조작, 자동화 에이전트, GDPval이 겨냥하는 전문 업무에 가깝다면 GPT-5.5를 먼저 테스트하는 편이 합리적이다. 공개 같은 표 비교에서 GPT-5.5는 Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GDPval에서 우위를 보인다.
업무 흐름이 코드, 도구 호출, 긴 계획, 문서 분석, 보고서 생성을 모두 섞는다면 하나의 ‘챔피언 모델’만 고르기 어렵다. GPT-5.5는 여러 실행형 벤치마크에서 강하고, Claude Opus 4.7은 SWE-Bench Pro, MCP Atlas, Anthropic이 강조한 도구·계획 개선 서사에서 두드러진다. 이런 경우 두 모델 모두 최종 후보에 넣는 편이 안전하다.
공개 벤치마크의 역할은 후보군을 줄이는 것이다. 실제 배포 모델을 고를 때는 사내의 실제 업무 20~50개 정도를 뽑아 모델 이름을 가리고 평가하는 편이 좋다. 프롬프트, 도구 권한, 컨텍스트 예산, 시간 제한, 채점 기준은 동일하게 맞춰야 한다. GPT-5.5를 쓴다면 reasoning.effort 같은 추론 설정도 고정해야 한다. OpenAI API 문서가 이 모델의 해당 설정 지원을 명시하기 때문이다.
평균 점수만 보지 말고 최소 네 가지를 따로 기록하자. 과제가 끝났는지, 답이 검증 가능한지, 사람이 고쳐야 하는 비용이 얼마나 드는지, 지연 시간과 호출 비용이 어느 정도인지다. 운영 시스템에서는 관련 없는 리더보드에서 몇 %p 더 이기는 것보다, 중요한 업무에서 안정적으로 덜 틀리는 모델이 더 가치 있을 때가 많다.
현재 공개 벤치마크가 말해주는 결론은 분명하다. GPT-5.5와 Claude Opus 4.7 사이에 절대 승자는 없다. 다만 코드 수정은 Claude Opus 4.7, 터미널·브라우징·자동화 실행은 GPT-5.5를 먼저 시험해볼 이유가 더 크다.
Comments
0 comments