코딩 AI를 평가할 때 흔히 “새 코드를 얼마나 그럴듯하게 생성하느냐”에만 집중합니다. 하지만 실제 개발 현장에서는 기존 아키텍처를 읽고, 여러 파일의 의존 관계를 따라가고, 테스트 실패를 반복적으로 고치며, 불필요한 변경을 줄이는 능력이 더 중요합니다.
이 지점에서 Claude Code/Opus에 대한 근거가 비교적 강합니다. Emergent는 실전 코딩 성능이 압박 속에서 여러 단계의 저장소 단위 작업을 얼마나 잘 처리하느냐에 달려 있다고 보고, Claude Code(Opus 4.6)를 복잡한 디버깅과 다중 파일 추론, 고위험 코드 변경에 적합한 도구로 꼽았습니다. 같은 출처는 Claude Code가 큰 코드베이스에서 문맥을 유지하고 반복 디버깅 과정에서도 성능 저하 없이 버틴다고 설명합니다.
벤치마크 해석에서도 중요한 단서가 있습니다. Awesome Agents는 맞춤형 스캐폴딩을 쓸 때는 GPT-5.4가 SWE-bench Pro에서 앞선다고 보지만, 모든 모델에 같은 에이전트 도구를 적용한 Scale SEAL SWE-bench Pro 평가에서는 Claude Opus 4.5/4.6이 앞선다고 전합니다. 팀이 “모델 자체의 능력”과 “주변 에이전트 프레임워크의 힘”을 구분하려면 이 차이를 꼭 봐야 합니다.
GPT-5.x Codex 계열은 진지한 후보 목록에서 빼기 어렵습니다. 특히 OpenAI/Codex식 워크플로를 이미 쓰고 있거나, 자체 에이전트 스캐폴딩을 잘 설계할 수 있는 팀이라면 더 그렇습니다.
Awesome Agents는 GPT-5.4가 맞춤형 에이전트 스캐폴딩을 사용해 SWE-bench Pro에서 **57.7%**로 선두에 올랐다고 보고했습니다. SWE-bench Pro는 41개 저장소의 1,865개 과제로 구성된 더 어려운 변형 벤치마크로 설명됩니다.
SWE-bench 리더보드 표시 항목에서도 GPT-5-2 Codex는 72.80을 기록한 것으로 나타납니다. 이는 벤치마크 중심으로 도구를 고르는 팀에 의미 있는 신호입니다. 다만 같은 근거 묶음 안에서도 스캐폴딩 방식에 따라 순위가 바뀔 수 있으므로, 이 숫자 하나만으로 “항상 최선”이라고 결론 내리기는 어렵습니다.
Gemini 역시 벤치마크 관점에서는 반드시 확인해야 할 후보입니다. SWE-bench 리더보드 표시 항목에서 Gemini 3 Flash(high reasoning)는 75.80으로, 함께 표시된 GPT-5-2 Codex의 72.80보다 높게 나옵니다.
따라서 팀의 선택 기준이 SWE-bench 성능에 크게 기대고 있다면 Gemini를 테스트 목록에 넣는 것이 자연스럽습니다. 다만 공개 벤치마크 결과가 곧바로 모든 실제 저장소에서의 우위를 뜻하지는 않습니다. 각 팀의 코드베이스, 권한 설정, 테스트 환경, 리뷰 기준, 에이전트 도구가 모두 다르기 때문입니다.
AI 코딩 순위가 뒤섞여 보이는 이유는 평가 대상이 서로 다르기 때문입니다.
결국 공개 순위는 “후보군을 줄이는 도구”로 써야지, 팀의 최종 결정을 대신하게 해서는 안 됩니다.
가장 안전한 방식은 같은 조건으로 직접 시험하는 것입니다. 후보 모델마다 같은 저장소, 같은 지시문, 같은 권한, 같은 시간 제한, 같은 리뷰 기준을 적용해야 합니다.
테스트 과제는 다음처럼 구성하는 것이 좋습니다.
점수표에는 단순히 “답이 그럴듯한가”보다 다음 항목을 넣는 편이 현실적입니다. 테스트가 통과했는지, 설명이 정확한지, 문맥을 끝까지 유지했는지, 꼭 필요한 파일만 수정했는지, 사람이 얼마나 많이 다시 검토해야 했는지를 보십시오. 운영 코드에서는 이런 지표가 리더보드 숫자 하나보다 더 쓸모 있습니다.
2026년 기준으로 어려운 실전 코딩 작업의 기본 선택지를 하나 고르라면, 현재 근거가 가장 잘 뒷받침하는 쪽은 Opus 계열 모델을 사용하는 Claude Code입니다. 하지만 벤치마크 중심으로 보면 GPT-5.x Codex와 Gemini도 강력합니다. GPT-5.4는 맞춤형 스캐폴딩 기반 SWE-bench Pro에서 **57.7%**를 기록한 것으로 보고됐고, SWE-bench 표시 항목에서는 Gemini 3 Flash가 75.80으로 나타납니다.
따라서 가장 실용적인 답은 이렇습니다. 어려운 저장소 단위 작업은 Claude Code/Opus에서 시작하고, 벤치마크와 에이전트 구성이 중요한 평가는 GPT-5.x Codex와 Gemini까지 포함해 비교하십시오. 최종 선택은 공개 순위가 아니라, 여러분의 코드베이스에서 같은 과제를 수행한 결과로 내려야 합니다.
Comments
0 comments