즉, 이 비교는 ‘최종 우승자’를 가리는 경기가 아니다. 벤치마크마다 재는 능력이 다르고, 실행 조건도 다르며, 실제 팀의 저장소와 개발 방식까지 대신 평가해주지는 않는다.
SWE-bench Verified는 인기 있는 Python 저장소의 실제 GitHub 이슈 500개를 바탕으로, 모델이 기존 테스트를 깨뜨리지 않으면서 버그를 고치는 패치를 제출할 수 있는지 평가한다. 따라서 Claude Opus 4.7의 SWE-bench Verified 82.4%는 의미 있는 신호지만, 같은 자료에서 GPT-5.5의 동등 조건 수치가 제공되지 않으므로 정면 승부의 결론으로 보기는 어렵다.
다음과 같은 코딩 환경이라면 GPT-5.5를 우선 후보로 올려볼 만하다.
근거는 Terminal-Bench 2.0이다. VentureBeat가 전한 표에서 GPT-5.5는 82.7%, Claude Opus 4.7은 69.4%를 기록했다. 이 벤치마크가 코딩 에이전트의 터미널 사용 능력을 측정한다는 OpenAI의 설명을 함께 보면, 커맨드라인 의존도가 높은 워크플로에서는 이 수치가 특히 관련성이 크다.
다만 ‘터미널을 잘 다룬다’는 말이 실제 저장소의 모든 패치를 더 정확하게 만든다는 뜻은 아니다. SWE-Bench Pro에서는 Claude Opus 4.7이 64.3%로, GPT-5.5의 58.6%보다 높게 보고됐다.
반대로 다음과 같은 작업이 많다면 Claude Opus 4.7이 더 자연스러운 출발점일 수 있다.
Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트용 모델로 직접 포지셔닝하고, 100만 토큰 컨텍스트 윈도를 강조한다. 또한 FactCheckRadar가 인용한 SWE-Bench Pro 비교에서는 Claude Opus 4.7이 64.3%로 GPT-5.5의 58.6%를 앞섰다.
SWE-bench Verified를 중시한다면 MindStudio가 Claude Opus 4.7의 점수를 82.4%로 보고했다는 점도 참고할 수 있다. 그러나 이 자료 역시 같은 조건에서 GPT-5.5와 직접 비교한 수치를 제공하지 않으므로, Claude가 모든 코딩 작업에서 항상 GPT-5.5를 이긴다는 증거로 확대 해석해서는 안 된다.
OpenAI 생태계에는 GPT-5.5와 별도로 Codex 계열 모델도 있다. 예를 들어 OpenAI는 GPT-5.1-Codex-Max가 PR 생성, 코드 리뷰, 프런트엔드 코딩, Q&A 같은 실제 소프트웨어 엔지니어링 작업으로 훈련됐고, 여러 프런티어 코딩 평가에서 이전 OpenAI 모델을 능가한다고 설명한다.
이 점은 OpenAI 도구를 쓰는 팀에는 중요하다. 하지만 그것이 곧바로 ‘GPT-5.5가 Claude Opus 4.7보다 내 워크플로에 더 낫다’는 답은 아니다. 프로덕션 코딩에 투입할 모델을 고른다면 모델명, 도구 접근 권한, IDE나 CLI 통합 방식, 실제로 팀이 매일 쓸 환경까지 맞춰 비교해야 한다.
팀에서 실제로 쓸 모델을 고른다면 리더보드만 보지 말고, 자신의 저장소에서 작은 A/B 테스트를 해보는 편이 낫다.
Comments
0 comments