한편 Grok 4.3과 DeepSeek V4는 공개된 평가 방식과 투명성이 달라 정확한 순위를 매기기 어렵습니다.
코딩 성능은 최신 LLM 사이에서 가장 뚜렷한 차이를 보여주는 영역입니다.
현재 공개된 데이터 기준으로 Claude Opus 4.7이 가장 강한 신호를 보입니다.
이 점수는 여러 프로그래밍 언어에서 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크에서 상당한 성능 향상을 의미합니다.
GPT‑5.5도 코딩 작업에서 강력하지만 약간 낮은 점수를 기록했습니다.
다만 GPT‑5.5는 터미널 기반 자동화 작업에서는 매우 강합니다.
예를 들어 Terminal‑Bench 2.0에서는 다음과 같은 결과가 보고되었습니다.
이 벤치마크는 명령줄 작업, 도구 사용, 자동화된 워크플로 조정을 포함한 복잡한 개발 환경을 평가합니다.
Gemini 3.5 Flash는 다음 점수를 기록했습니다.
Flash 계열 모델이라는 점을 고려하면 상당히 높은 결과입니다.
Grok 4.3의 경우 비교 가능한 표준 코딩 벤치마크가 적습니다. 공개된 지표로는 다음이 있습니다.
DeepSeek V4는 상황이 조금 더 복잡합니다.
최근 AI 벤치마크는 단순 질문 답변보다 도구를 활용해 실제 작업을 수행하는 능력을 점점 더 중요하게 평가합니다.
Google 자료에 따르면 Gemini 3.5 Flash는 여러 도구 사용 벤치마크에서 높은 점수를 기록했습니다.
GPT‑5.5 역시 이러한 영역에서 강한 성능을 보입니다.
Claude Opus 4.7도 컴퓨터 사용 벤치마크에서 높은 성능을 보입니다.
벤치마크 점수만으로는 실제 배포 환경에서의 특징을 모두 설명할 수 없습니다.
Grok 4.3은 긴 컨텍스트 처리와 비용 효율을 강조합니다.
xAI 문서에 따르면 다음과 같은 특징이 있습니다.
Gemini 3.5 Flash는 속도를 핵심 특징으로 하는 모델입니다.
DeepSeek 모델은 일반적으로 오픈 가중치 또는 저비용 배포 전략을 강조합니다.
이 때문에 자체 인프라에서 모델을 운영하려는 기업에게는 매력적인 선택지가 될 수 있습니다.
DeepSeek V4에 대한 가장 신뢰할 만한 외부 평가는 미국 국립표준기술연구소(NIST)의 CAISI 프로그램입니다.
이 평가에 따르면 DeepSeek V4는 다음과 같은 특징을 보입니다.
이는 AI 모델 비교에서 중립적인 평가 기관의 중요성을 보여주는 사례입니다.
LLM 성능을 단순히 순위로 비교하기 어려운 이유는 몇 가지가 있습니다.
따라서 모든 모델을 단순히 1위부터 5위까지 순위화하는 것은 신중하게 해석해야 합니다.
공개된 자료를 종합하면 다음과 같은 흐름이 보입니다.
결국 “최고의 모델”은 사용 목적에 따라 달라집니다.
예를 들어:
같은 실제 워크로드에 따라 가장 적합한 모델이 달라질 수 있습니다.
Comments
0 comments