공개 벤치마크 결과만 놓고 보면 결론은 의외로 단순하다. “코딩을 제일 잘하는 모델 하나”는 아직 고르기 어렵다. 저장소 버그 수정에 가까운 SWE-Bench Verified에서는 Claude Opus 4.6이 가장 강한 신호를 보이고, 터미널에서 명령을 실행하며 문제를 푸는 에이전트형 작업에서는 GPT-5.3-Codex가 좋은 출발점이다 [1][
3][
5][
7][
9]. GPT-5.4는 GPT-5.3-Codex 대비 코딩 벤치마크 개선 폭이 크다기보다, 도구 사용 효율 쪽에서 따로 살펴볼 가치가 있는 모델에 가깝다 [
3].
먼저 볼 결론: 작업별로 출발 모델이 다르다
| 실제 작업 | 먼저 테스트할 모델 | 근거 | 주의할 점 |
|---|---|---|---|
| GitHub 저장소 버그 수정처럼 SWE-Bench Verified에 가까운 작업 | Claude Opus 4.6 | 인용된 자료들에서 Opus 4.6은 SWE-Bench Verified 약 79.2~80.8%로 제시된다 [ | SWE-Bench Verified와 SWE-Bench Pro Public을 같은 시험처럼 직접 비교하면 안 된다 [ |
| 셸 명령, 테스트 실행, 파일 수정이 섞인 터미널 에이전트 작업 | GPT-5.3-Codex | GPT-5.4 중심 비교에서는 GPT-5.3-Codex가 Terminal-Bench 2.0 77.3%로 GPT-5.4 75.1%, Claude Opus 4.6 65.4%보다 높게 제시된다 [ | 공개 리더보드는 모델 단독이 아니라 에이전트와 모델의 조합을 평가한다 [ |
| OpenAI 모델만 놓고 고르는 경우 | GPT-5.4도 후보, 단 기대치는 점진적 개선 | 같은 비교에서 GPT-5.4는 SWE-Bench Pro 57.7%로 GPT-5.3-Codex 56.8%를 근소하게 앞선다 [ | 같은 자료에서 Terminal-Bench 2.0은 GPT-5.4가 GPT-5.3-Codex보다 낮다 [ |
| MCP 등 도구 호출이 많은 에이전트 시스템 | GPT-5.4 별도 검증 권장 | GPT-5.4 분석은 도구 정의를 필요할 때 불러오는 방식으로 MCP 토큰 사용량을 47% 줄였다고 설명한다 [ | 토큰 절감은 코딩 정답률 벤치마크 승리와는 다른 성격의 지표다 [ |
함정은 벤치마크 이름에 있다
SWE-Bench Verified와 SWE-Bench Pro Public은 같은 줄에 놓기 어렵다
Claude Opus 4.6의 가장 강한 근거는 SWE-Bench Verified다. 인용된 자료들에서 Opus 4.6은 이 변형에서 79.2%, 79.4%, 또는 80.8%로 제시된다 [3][
5][
7][
9]. 저장소의 실제 이슈를 고치는 능력을 가늠하려는 팀이라면 이 숫자는 무시하기 어렵다.
반면 GPT-5.3-Codex는 자료마다 사용한 SWE-Bench 변형이 다르다. 한 GPT-5.4 분석은 GPT-5.3-Codex를 SWE-Bench Pro 56.8%로 제시하고, 다른 Opus 대 Codex 비교들은 GPT-5.3-Codex를 SWE-Bench Pro Public 78.2%로 제시한다 [3][
6][
7]. 이 차이는 “평균을 내면 된다”는 뜻이 아니라, 서로 다른 시험지를 한 표에 섞으면 오해가 생긴다는 신호다. 여러 자료도 SWE-Bench Verified와 SWE-Bench Pro Public을 직접 호환되는 점수처럼 비교해서는 안 된다고 설명한다 [
6][
7][
10].
GPT-5.4의 OpenAI 내부 비교상 코딩 개선도는 비교적 작다. 같은 GPT-5.4 중심 분석에서 GPT-5.4는 SWE-Bench Pro 57.7%, GPT-5.3-Codex는 56.8%로 제시된다 [3]. 또 다른 요약도 GPT-5.4의 SWE-Bench Pro Public 57.7% 수치를 언급하면서, Claude와 GPT 계열의 더 넓은 비교는 애플 투 애플이 아니라고 경고한다 [
10].
Terminal-Bench는 ‘모델’만 보는 시험이 아니다
Terminal-Bench 2.0은 특히 해석에 조심해야 한다. 공개 리더보드는 순수한 기본 모델 점수가 아니라 에이전트와 모델의 조합을 올린다 [1]. 예를 들어 GPT-5.3-Codex는 SageAgent 조합에서 78.4%, Droid 조합에서 77.3%, Simple Codex 조합에서 75.1%로 나타난다 [
1]. Claude Opus 4.6도 ForgeCode 조합에서는 79.8%, Capy 조합에서는 75.3%, Terminus 2 조합에서는 62.9%로 차이가 크다 [
1].
이 정도 차이면 “어느 모델이 이겼다”는 결론 자체가 뒤집힐 수 있다. GPT-5.4 중심 비교에서는 Terminal-Bench 2.0에서 GPT-5.3-Codex가 77.3%, Claude Opus 4.6이 65.4%로 제시된다 [3]. 하지만 공개 리더보드에는 ForgeCode와 Claude Opus 4.6 조합이 79.8%로, SageAgent와 GPT-5.3-Codex 조합의 78.4%보다 높게 올라와 있다 [
1]. 따라서 터미널 에이전트 성능을 비교하려면, 적어도 같은 하네스에서 돌려본 뒤 모델 차이를 말하는 편이 안전하다.
모델별로 보면
Claude Opus 4.6: 저장소 버그 수정형 평가에서 가장 강한 신호
SWE-Bench Verified를 코딩 품질의 핵심 대리 지표로 본다면, Claude Opus 4.6은 가장 먼저 시험해볼 만한 모델이다. 인용된 자료에서 Opus 4.6의 Verified 점수는 대체로 79~81% 구간에 모인다. GPT-5.4 분석에서는 79.2%, Opus와 Codex 비교에서는 79.4%, 다른 벤치마크 정리에서는 80.8%로 제시된다 [3][
5][
6][
7][
9].
다만 이것이 모든 코딩 작업에서 Opus 4.6이 이긴다는 뜻은 아니다. Terminal-Bench 2.0에서는 자료에 따라 이야기가 달라진다. 비교 자료는 65.4%를 제시하지만, 공개 리더보드에서는 ForgeCode와 조합했을 때 79.8%, Terminus 2와 조합했을 때 62.9%로 나타난다 [1][
3][
7][
9]. 즉 Opus 4.6은 Verified 스타일의 저장소 수정 작업에서는 강력한 출발점이지만, 범용 코딩 챔피언이라고 단정하기는 어렵다.
GPT-5.3-Codex: 터미널 에이전트 워크플로에서 돋보이는 OpenAI 선택지
GPT-5.3-Codex는 터미널에서 명령을 실행하고, 테스트를 돌리고, 파일을 고치는 에이전트형 작업에서 강한 근거를 가진다. 비교 자료에서는 Terminal-Bench 2.0 77.3%로 제시되며, 공개 리더보드에서도 SageAgent 조합 78.4%, Droid 조합 77.3%, Simple Codex 조합 75.1%가 확인된다 [1][
3][
7][
9].
SWE-Bench 계열 해석은 더 신중해야 한다. 일부 자료는 GPT-5.3-Codex를 SWE-Bench Pro Public 78.2%로 제시하고, 다른 자료는 SWE-Bench Pro 56.8%로 제시한다 [3][
6][
7][
9]. 앞서 말했듯 이 변형들은 직접 맞바꿔 비교하기 어렵다는 경고가 있으므로, 실제 도입 전에는 자신이 중시하는 SWE-Bench 변형과 동일한 평가 설정에서 확인하는 것이 맞다 [
6][
7][
10].
GPT-5.4: 코딩 점수보다 도구 사용 효율이 더 눈에 띈다
제공된 벤치마크 묶음만 보면 GPT-5.4가 코딩에서 압도적으로 도약했다고 말하기는 어렵다. 같은 출처의 비교에서 GPT-5.4는 SWE-Bench Pro 57.7%로 GPT-5.3-Codex 56.8%를 근소하게 앞서지만, Terminal-Bench 2.0에서는 GPT-5.4 75.1%, GPT-5.3-Codex 77.3%로 오히려 뒤진다 [3].
GPT-5.4에서 더 흥미로운 지점은 도구 사용이다. GPT-5.4 분석은 모든 도구 정의를 컨텍스트에 밀어 넣는 대신 필요한 시점에 불러오는 방식으로 MCP 토큰 사용량을 47% 줄였다고 설명한다 [3]. MCP 기반 에이전트나 사내 개발 도구를 많이 붙이는 환경이라면 이 효율은 비용과 지연시간 측면에서 의미가 있을 수 있다. 그러나 이 역시 SWE-Bench나 Terminal-Bench의 정답률 승리와는 별도로 측정해야 할 항목이다 [
3].
실제로 비교할 때의 체크리스트
- 벤치마크 변형을 먼저 고른다. SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Pro Public을 하나의 점수표로 합치면 결론이 왜곡될 수 있다 [
6][
7][
10].
- 터미널 작업은 에이전트 하네스를 고정한다. Terminal-Bench 2.0 공개 리더보드는 같은 모델도 에이전트 조합에 따라 의미 있게 다른 정확도를 보일 수 있음을 보여준다 [
1].
- 코딩 정답률과 도구 효율을 분리한다. GPT-5.4의 MCP 토큰 47% 절감 주장은 도구 집약적 시스템에는 중요하지만, 버그 수정 벤치마크 승리와 같은 말은 아니다 [
3].
- 혼합 출처 순위는 방향성으로만 본다. 제공된 자료들은 벤치마크와 하네스에 따라 다른 승자를 가리킨다. 하나의 절대 순위를 만들면 근거보다 결론이 앞서게 된다 [
1][
3][
6][
7][
10].
결론
저장소 버그 수정형 작업이라면 Claude Opus 4.6부터, 터미널 에이전트 워크플로라면 GPT-5.3-Codex부터 비교해보는 것이 합리적이다 [1][
3][
5][
7][
9]. GPT-5.4는 OpenAI 최신 모델을 써야 하거나, 도구 검색과 MCP 토큰 효율을 별도 검증하려는 팀에게 의미 있는 후보가 될 수 있다 [
3].
가장 안전한 결론은 “한 모델이 코딩을 완전히 지배한다”가 아니다. 어떤 벤치마크 변형을 보느냐, 어떤 에이전트 하네스를 쓰느냐, 실제 업무가 무엇이냐에 따라 승자가 달라진다는 것이다 [1][
6][
7][
10].




