| SWE-Bench Verified와 SWE-Bench Pro Public을 같은 시험처럼 직접 비교하면 안 된다 |
| 셸 명령, 테스트 실행, 파일 수정이 섞인 터미널 에이전트 작업 | GPT-5.3-Codex | GPT-5.4 중심 비교에서는 GPT-5.3-Codex가 Terminal-Bench 2.0 77.3%로 GPT-5.4 75.1%, Claude Opus 4.6 65.4%보다 높게 제시된다 | 공개 리더보드는 모델 단독이 아니라 에이전트와 모델의 조합을 평가한다 |
| OpenAI 모델만 놓고 고르는 경우 | GPT-5.4도 후보, 단 기대치는 점진적 개선 | 같은 비교에서 GPT-5.4는 SWE-Bench Pro 57.7%로 GPT-5.3-Codex 56.8%를 근소하게 앞선다 | 같은 자료에서 Terminal-Bench 2.0은 GPT-5.4가 GPT-5.3-Codex보다 낮다 |
| MCP 등 도구 호출이 많은 에이전트 시스템 | GPT-5.4 별도 검증 권장 | GPT-5.4 분석은 도구 정의를 필요할 때 불러오는 방식으로 MCP 토큰 사용량을 47% 줄였다고 설명한다 | 토큰 절감은 코딩 정답률 벤치마크 승리와는 다른 성격의 지표다 |
Claude Opus 4.6의 가장 강한 근거는 SWE-Bench Verified다. 인용된 자료들에서 Opus 4.6은 이 변형에서 79.2%, 79.4%, 또는 80.8%로 제시된다 . 저장소의 실제 이슈를 고치는 능력을 가늠하려는 팀이라면 이 숫자는 무시하기 어렵다.
반면 GPT-5.3-Codex는 자료마다 사용한 SWE-Bench 변형이 다르다. 한 GPT-5.4 분석은 GPT-5.3-Codex를 SWE-Bench Pro 56.8%로 제시하고, 다른 Opus 대 Codex 비교들은 GPT-5.3-Codex를 SWE-Bench Pro Public 78.2%로 제시한다 . 이 차이는 “평균을 내면 된다”는 뜻이 아니라, 서로 다른 시험지를 한 표에 섞으면 오해가 생긴다는 신호다. 여러 자료도 SWE-Bench Verified와 SWE-Bench Pro Public을 직접 호환되는 점수처럼 비교해서는 안 된다고 설명한다
.
GPT-5.4의 OpenAI 내부 비교상 코딩 개선도는 비교적 작다. 같은 GPT-5.4 중심 분석에서 GPT-5.4는 SWE-Bench Pro 57.7%, GPT-5.3-Codex는 56.8%로 제시된다 . 또 다른 요약도 GPT-5.4의 SWE-Bench Pro Public 57.7% 수치를 언급하면서, Claude와 GPT 계열의 더 넓은 비교는 애플 투 애플이 아니라고 경고한다
.
Terminal-Bench 2.0은 특히 해석에 조심해야 한다. 공개 리더보드는 순수한 기본 모델 점수가 아니라 에이전트와 모델의 조합을 올린다 . 예를 들어 GPT-5.3-Codex는 SageAgent 조합에서 78.4%, Droid 조합에서 77.3%, Simple Codex 조합에서 75.1%로 나타난다
. Claude Opus 4.6도 ForgeCode 조합에서는 79.8%, Capy 조합에서는 75.3%, Terminus 2 조합에서는 62.9%로 차이가 크다
.
이 정도 차이면 “어느 모델이 이겼다”는 결론 자체가 뒤집힐 수 있다. GPT-5.4 중심 비교에서는 Terminal-Bench 2.0에서 GPT-5.3-Codex가 77.3%, Claude Opus 4.6이 65.4%로 제시된다 . 하지만 공개 리더보드에는 ForgeCode와 Claude Opus 4.6 조합이 79.8%로, SageAgent와 GPT-5.3-Codex 조합의 78.4%보다 높게 올라와 있다
. 따라서 터미널 에이전트 성능을 비교하려면, 적어도 같은 하네스에서 돌려본 뒤 모델 차이를 말하는 편이 안전하다.
SWE-Bench Verified를 코딩 품질의 핵심 대리 지표로 본다면, Claude Opus 4.6은 가장 먼저 시험해볼 만한 모델이다. 인용된 자료에서 Opus 4.6의 Verified 점수는 대체로 79~81% 구간에 모인다. GPT-5.4 분석에서는 79.2%, Opus와 Codex 비교에서는 79.4%, 다른 벤치마크 정리에서는 80.8%로 제시된다 .
다만 이것이 모든 코딩 작업에서 Opus 4.6이 이긴다는 뜻은 아니다. Terminal-Bench 2.0에서는 자료에 따라 이야기가 달라진다. 비교 자료는 65.4%를 제시하지만, 공개 리더보드에서는 ForgeCode와 조합했을 때 79.8%, Terminus 2와 조합했을 때 62.9%로 나타난다 . 즉 Opus 4.6은 Verified 스타일의 저장소 수정 작업에서는 강력한 출발점이지만, 범용 코딩 챔피언이라고 단정하기는 어렵다.
GPT-5.3-Codex는 터미널에서 명령을 실행하고, 테스트를 돌리고, 파일을 고치는 에이전트형 작업에서 강한 근거를 가진다. 비교 자료에서는 Terminal-Bench 2.0 77.3%로 제시되며, 공개 리더보드에서도 SageAgent 조합 78.4%, Droid 조합 77.3%, Simple Codex 조합 75.1%가 확인된다 .
SWE-Bench 계열 해석은 더 신중해야 한다. 일부 자료는 GPT-5.3-Codex를 SWE-Bench Pro Public 78.2%로 제시하고, 다른 자료는 SWE-Bench Pro 56.8%로 제시한다 . 앞서 말했듯 이 변형들은 직접 맞바꿔 비교하기 어렵다는 경고가 있으므로, 실제 도입 전에는 자신이 중시하는 SWE-Bench 변형과 동일한 평가 설정에서 확인하는 것이 맞다
.
제공된 벤치마크 묶음만 보면 GPT-5.4가 코딩에서 압도적으로 도약했다고 말하기는 어렵다. 같은 출처의 비교에서 GPT-5.4는 SWE-Bench Pro 57.7%로 GPT-5.3-Codex 56.8%를 근소하게 앞서지만, Terminal-Bench 2.0에서는 GPT-5.4 75.1%, GPT-5.3-Codex 77.3%로 오히려 뒤진다 .
GPT-5.4에서 더 흥미로운 지점은 도구 사용이다. GPT-5.4 분석은 모든 도구 정의를 컨텍스트에 밀어 넣는 대신 필요한 시점에 불러오는 방식으로 MCP 토큰 사용량을 47% 줄였다고 설명한다 . MCP 기반 에이전트나 사내 개발 도구를 많이 붙이는 환경이라면 이 효율은 비용과 지연시간 측면에서 의미가 있을 수 있다. 그러나 이 역시 SWE-Bench나 Terminal-Bench의 정답률 승리와는 별도로 측정해야 할 항목이다
.
저장소 버그 수정형 작업이라면 Claude Opus 4.6부터, 터미널 에이전트 워크플로라면 GPT-5.3-Codex부터 비교해보는 것이 합리적이다 . GPT-5.4는 OpenAI 최신 모델을 써야 하거나, 도구 검색과 MCP 토큰 효율을 별도 검증하려는 팀에게 의미 있는 후보가 될 수 있다
.
Comments
0 comments