| SWE-bench에는 변형이 여럿 있고, 벤더가 자신에게 유리한 지표를 강조할 수 있다는 지적이 있습니다. |
| 터미널·CLI 기반 코딩 에이전트 | GPT-5.5 | VentureBeat가 정리한 Terminal-Bench 2.0 표에서는 GPT-5.5 82.7, Claude Opus 4.7 69.4로 제시됐습니다. | Terminal-Bench 2.0은 명령줄 워크플로의 계획, 반복, 도구 조정을 보는 성격이므로 모든 코드 품질을 대변하지는 않습니다. |
| 브라우징·도구 호출이 섞인 개발 보조 | 혼합 | OpenAI 표에서 BrowseComp는 GPT-5.5 84.4%, Claude Opus 4.7 79.3%지만, MCP Atlas는 GPT-5.5 75.3%, Claude Opus 4.7 79.1%입니다. | 도구 사용 평가는 코딩 전용 평가가 아닙니다. |
| 장시간 에이전트 루프 제어 | Claude Opus 4.7도 강한 후보 | Anthropic은 Opus 4.7을 복잡한 추론과 에이전트형 코딩을 위한 자사의 가장 강력한 generally available 모델로 설명합니다. | 실제 결과는 하네스, 프롬프트, 권한, 테스트 환경에 크게 좌우됩니다. |
Claude Opus 4.7을 먼저 붙여 볼 만한 영역은 실패한 테스트를 읽고, 원인을 찾고, 작은 패치를 만들어 통과시키는 코드 수정형 작업입니다. Anthropic은 Claude Opus 4.7이 SWE-bench Pro에서 64.3%를 기록했다고 내세우며, GPT-5.5와 비교한 보도에서도 Claude Opus 4.7이 같은 지표에서 더 높은 수치로 정리됐습니다.
이 신호는 Anthropic의 모델 포지셔닝과도 맞물립니다. Anthropic의 Claude API 릴리스 노트는 2026년 4월 16일 Claude Opus 4.7을 출시하면서, 이 모델을 복잡한 추론과 에이전트형 코딩을 위한 자사의 가장 강력한 generally available 모델이라고 설명했습니다.
기능 측면에서도 장시간 작업을 염두에 둔 변화가 있습니다. Claude Opus 4.7에는 베타 기능인 task budgets 또한 Anthropic은 Opus 4.7 사용자가 기본적으로
xhigh effort를 쓰도록 설정했다고 밝혔습니다.
따라서 다음 업무라면 Claude Opus 4.7부터 평가하는 편이 자연스럽습니다.
다만 이 결론은 “모든 코딩에서 Claude가 우위”라는 뜻은 아닙니다. SWE-bench 계열 벤치마크에는 여러 변형이 있고, 벤더들이 자신에게 유리한 지표를 강조할 수 있다는 지적이 있으므로, 공개 점수는 실제 리포지토리 테스트의 출발점으로 보는 것이 안전합니다.
GPT-5.5의 강점은 터미널을 실제 작업 공간처럼 쓰는 개발 에이전트 흐름에서 더 뚜렷합니다. VentureBeat가 정리한 Terminal-Bench 2.0 표에서는 GPT-5.5가 82.7, Claude Opus 4.7이 69.4로 제시됐습니다.
이 차이가 의미 있는 이유는 Terminal-Bench 2.0이 단순히 코드 한 조각을 생성하는 평가가 아니기 때문입니다. 해당 벤치마크는 복잡한 명령줄 워크플로에서 계획, 반복, 도구 조정이 필요한 상황을 평가하는 것으로 설명됩니다. 즉, 에이전트가 명령을 실행하고, 로그를 읽고, 실패 원인을 좁히고, 다시 테스트하는 방식의 업무와 더 가깝습니다.
다음과 같은 워크플로라면 GPT-5.5를 먼저 비교 후보에 올릴 만합니다.
다만 Terminal-Bench 2.0 점수가 높다고 해서 모든 버그 수정이나 PR 품질에서 우위라고 결론낼 수는 없습니다. CLI 워크플로 능력과 최종 패치 품질은 겹치는 부분이 있지만, 같은 평가 축은 아닙니다.
브라우징과 도구 호출을 포함한 평가에서는 결과가 섞입니다. OpenAI의 GPT-5.5 소개 자료에 따르면 BrowseComp는 GPT-5.5 84.4%, Claude Opus 4.7 79.3%로 GPT-5.5가 앞서지만, MCP Atlas는 GPT-5.5 75.3%, Claude Opus 4.7 79.1%로 Claude Opus 4.7이 앞섭니다.
따라서 “도구를 쓰는 모델”이라는 넓은 기준만으로는 결론을 내리기 어렵습니다. 검색과 브라우징이 많은 개발 보조인지, 로컬 터미널을 조작하는 에이전트인지, 기존 코드베이스를 수정하는 패치 생성기인지에 따라 필요한 능력이 달라집니다.
첫째, 전체 모델 순위를 코딩 순위처럼 읽으면 안 됩니다. 예를 들어 BenchLM의 overall ranking에는 GPT-5.4가 88점, Claude Opus 4.7이 86점으로 표시되지만, 이는 GPT-5.5가 아니며 코딩 전용 평가도 아닙니다.
둘째, SWE-bench Pro 하나로 전체 코딩 성능을 단정하면 위험합니다. SWE-bench 계열에는 여러 변형이 있고, 벤더가 유리한 지표를 강조할 수 있다는 점을 감안해야 합니다.
셋째, 터미널 벤치마크를 코드 품질 벤치마크와 동일시하면 안 됩니다. Terminal-Bench 2.0은 명령줄 기반 계획과 반복, 도구 조정 능력에 가까운 신호이며, 리뷰어가 병합할 만한 패치를 얼마나 잘 만드는지는 별도로 확인해야 합니다.
공개 벤치마크는 후보를 좁히는 데 유용하지만, 최종 결정은 팀의 실제 리포지토리에서 내려야 합니다. 두 모델을 비교할 때는 조건을 최대한 맞추는 것이 중요합니다.
평가 지표도 단순 정답률보다 실무에 맞춰 잡아야 합니다.
일반적인 개발팀의 목표가 이슈 해결, 버그 수정, 테스트 통과, PR 패치 생성이라면 Claude Opus 4.7부터 테스트하세요. 공개된 SWE-bench Pro 신호가 Claude Opus 4.7에 더 유리하게 제시되어 있기 때문입니다.
반대로 목표가 터미널 명령 실행, 로그 분석, 빌드·테스트 반복, CLI 도구 조합이라면 GPT-5.5를 먼저 평가하세요. Terminal-Bench 2.0에서 GPT-5.5가 Claude Opus 4.7보다 높은 점수로 보도됐기 때문입니다.
가장 안전한 결론은 단순합니다. 코드 수정형 코딩은 Claude Opus 4.7부터, 터미널 자동화 중심의 에이전트형 코딩은 GPT-5.5부터 시작하고, 최종 선택은 같은 리포지토리에서 더 자주 테스트를 통과하고 더 적은 수정으로 병합 가능한 코드를 내는 모델로 정하세요.
Comments
0 comments