이 결과는 GPT‑5.5가 특히 자율적인 멀티스텝 작업과 에이전트형 워크플로우에 강하다는 점을 보여줍니다.
Anthropic의 Claude Opus 4.7은 특히 소프트웨어 개발 관련 테스트에서 강력한 성능으로 알려져 있습니다.
주요 결과는 다음과 같습니다.
SWE‑bench는 오픈소스 저장소의 실제 버그를 해결할 수 있는지 평가하는 테스트입니다. Opus 4.7이 87.6%의 해결률을 기록한 것은 이전 버전보다 크게 향상된 수치입니다.
Google의 Gemini 3.5 Flash는 특이하게도 “최고 성능 모델”이 아니라 고속·저비용 모델로 설계되었습니다. 그럼에도 여러 벤치마크에서 경쟁력 있는 점수를 기록했습니다.
대표 결과는 다음과 같습니다.
즉, Gemini 3.5 Flash의 핵심 강점은 속도 대비 성능 효율입니다. 최고 성능 모델에 근접한 결과를 내면서도 실제 서비스 환경에서 낮은 지연 시간을 목표로 합니다.
중국 AI 기업 DeepSeek의 DeepSeek V4는 공개 가중치(open‑weight) 모델 중 가장 강력한 축에 속합니다.
모델은 두 가지 변형으로 제공됩니다.
최대 추론 모드에서 V4‑Pro의 주요 벤치마크는 다음과 같습니다.
즉, 성능은 매우 높지만 독립적인 평가에서는 아직 격차가 존재합니다.
xAI의 Grok 4.3은 이전 Grok 모델보다 크게 향상된 성능을 보여줍니다.
대표적인 수치는 다음과 같습니다.
여러 평가를 종합하면 다음과 같은 경향이 나타납니다.
다만 이 결과는 절대적인 순위라기보다 현재 공개된 자료를 바탕으로 한 경향적 결론에 가깝습니다.
프런티어 모델 비교가 계속 변하는 이유는 몇 가지가 있습니다.
따라서 실제 순위는 보통 몇 달간의 독립적인 테스트가 축적된 뒤 더 명확해지는 경우가 많습니다.
현재 벤치마크 자료를 보면 한 모델이 모든 영역을 압도하는 상황은 아닙니다.
앞으로 동일 조건의 독립적인 벤치마크가 더 많이 등장하면, 이 모델들의 정확한 서열은 계속 바뀔 가능성이 큽니다.
Comments
0 comments