Terminal-Bench 2.1은 다단계 계획, 도구 조정, 반복 작업이 필요한 명령줄 워크플로를 테스트합니다 . 이 벤치마크는 89개의 복잡한 프로그래밍 작업으로 구성됩니다
. 결과는 다음과 같습니다.
| 모델 | 점수 |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (max) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra는 91.9%를 기록하며 새로운 최고 기록(SOTA)을 세웠습니다 . 표준 Sol의 점수 88.8%는 Anthropic의 제한적 최전선 모델인 Claude Mythos 5의 88.0%를 약 1포인트 차이로 앞섰습니다
.
GeneBench v1은 장기 유전체학 및 정량 생물학 분석 작업을 평가하는 벤치마크입니다. OpenAI는 Sol이 GPT-5.5보다 더 적은 출력 토큰을 사용하면서 더 강력한 결과를 달성했다고 밝혔습니다 . 이는 과학 연구 워크플로의 효율성이 크게 개선되었음을 의미합니다.
사이버보안 연구 벤치마크인 ExploitBench에서 GPT-5.6 Sol은 Anthropic의 Mythos Preview와 거의 동등한 성능을 보이면서도 약 3분의 1의 출력 토큰만 사용했습니다 .
UC Berkeley 연구원들이 OpenAI 및 다른 최전선 AI 연구소와 협력하여 구축한 벤치마크인 ExploitGym에서는 세 가지 GPT-5.6 모델 모두 추론 능력이 향상됨에 따라 사이버보안 역량이 개선되었습니다 .
중요한 점은 OpenAI가 GPT-5.6 Sol이 자체 준비 프레임워크(Preparedness Framework) 하에서 사이버 크리티컬(Cyber Critical) 임계값을 넘지 않았다고 밝힌 것입니다 . Chromium 및 Firefox를 대상으로 한 평가에서 이 모델은 버그와 익스플로잇 구성 요소(익스플로잇의 기본 요소)를 식별했지만, 테스트된 조건에서 자율적으로 완전한 기능의 전체 체인 익스플로잇을 생성하지는 못했습니다
. 전체 GPT-5.6 모델 시리즈는 내부적으로 '높음(High)' 위험(사이버보안 및 생물무기 능력 측면)으로 평가되었지만, 가장 높은 '크리티컬(Critical)' 수준은 아니었습니다
.
GPT-5.6의 출시는 이전의 어떤 OpenAI 출시와도 다릅니다. 미국 정부의 요청에 따라 OpenAI는 초기에는 소수의 신뢰할 수 있는 파트너 및 조직(약 20개 승인 기업)으로만 접근을 제한하고 있으며, 모델은 추가 국가 안보 검토를 거치고 있습니다 .
이 프리뷰는 광범위한 셀프 서비스 프로그램이 아닙니다. 이 기간 동안 GPT-5.6 Sol, Terra, Luna는 이 제한된 그룹에 한해 OpenAI API와 Codex를 통해서만 사용할 수 있습니다 . 프리뷰 기간 동안에는 ChatGPT에서 모델을 사용할 수 없습니다
. OpenAI는 "향후 몇 주 내"에 ChatGPT, Codex, API에서 더 광범위하게 사용할 수 있도록 할 계획이라고 밝혔습니다
.
OpenAI는 이 정부 주도의 접근 방식을 일시적인 조치로 간주한다고 분명히 밝혔습니다. "우리는 광범위한 접근을 믿으며, 이 과정이 장기적인 기본값이 되어서는 안 됩니다" . 내부 메모에서 CEO 샘 알트만은 직원들에게 이 프리뷰 기간 동안 "정부가 고객별로 접근을 승인"할 것이며, 몇 주 후에는 더 광범위한 출시를 기대한다고 말했습니다
.
이는 국가사이버국장실(Office of the National Cyber Director) 및 과학기술정책실(Office of Science and Technology Policy)과의 논의 결과로, 트럼프 행정부가 테스트 중인 새로운 최전선 모델 프레임워크를 반영한 것입니다 .
| 모델 | 입력 / 100만 토큰 | 출력 / 100만 토큰 |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Sol의 가격은 GPT-5.5와 동일하며, Terra는 GPT-5.5보다 약 2배 저렴합니다 . 참고로 Sol의 가격은 Anthropic의 제한 모델인 Mythos 5($10/$50)보다는 Claude Opus 4.8($5/$25)에 더 가깝습니다
.
GPT-5.6 모델군은 이전 OpenAI 출시와는 확연히 다릅니다. 3단계 패키징(Sol, Terra, Luna)은 모델 시리즈와 성능 등급을 분리하는 지속 가능한 브랜딩을 도입했습니다. Terminal-Bench 2.1에서 Sol의 최고 수준 코딩 점수와 ExploitBench에서의 효율성 향상을 포함한 벤치마크 결과는 특히 사이버보안 및 생물학 분야에서 의미 있는 발전을 보여줍니다. 하지만 이번 출시의 가장 큰 특징은 정부가 요구한 접근 제한 조치로, 이는 최전선 AI 배포의 새로운 패러다임을 나타냅니다.
Comments
0 comments