앤트로픽의 내부 벤치마크는 지식 작업 영역에서의 향상도 보여줍니다. 경제적 가치가 높은 지식 작업을 평가하는 GDPval-AA 평가에서 오푸스 4.8은 1890점을 기록했으며, 이는 GPT-5.5의 1769점, 제미나이의 1314점보다 우수한 결과입니다 . 전체 테스트 스위트에서 앤트로픽은 오푸스 4.8이 여러 주요 부문에서 두 경쟁 모델을 능가한다고 주장하지만, 모든 단일 테스트를 압도한 것은 아닙니다
.
이번 오푸스 4.8 출시에서 앤트로픽이 단순한 지능 지표 향상보다 더욱 강조한 부분은 모델의 신뢰성입니다. 회사 측은 오푸스 4.8이 자신이 생성한 코드의 결함을 지적 없이 넘어갈 확률이 오푸스 4.7보다 약 4배 더 낮다고 발표했습니다 .
초기 테스터들은 이 모델이 복잡한 다단계 작업 수행 중 자신의 불확실성을 적극적으로 표시하며, 근거가 부족한 주장을 하는 경향이 현저히 줄었다고 평가했습니다 . 앤트로픽은 이번 출시에서 '정직함'을 하나의 주요 제품 기능으로 내세우며, 모델이 불충분한 정보를 사실인 것처럼 제시할 가능성이 줄어들었다고 밝혔습니다
.
동적 워크플로우(Dynamic Workflows): 클로드 코드(Claude Code)에서 연구 미리보기로 제공되는 이 기능은 모델이 작업을 계획하고, 수백 개의 병렬 하위 에이전트들을 구성하여 작업을 조율한 뒤, 결과를 검증하고 보고하는 과정을 자동화합니다. 이는 단일 세션 내에서 대규모 코드 마이그레이션, 감사(Auditing), 버그 헌팅(Bug Hunting)과 같은 방대한 작업을 위해 설계되었습니다 .
조절 가능한 몰입도 / 노력 제어(Adjustable Engagement / Effort Control): 이제 사용자는 claude.ai 및 클로드 코드에서 모델의 추론 깊이를 직접 설정할 수 있습니다. '노력(effort)' 매개변수를 통해 지능 수준, 토큰 비용, 처리 속도 사이의 균형을 조절하는 것이죠. 공식 문서는 가장 까다로운 코딩 및 에이전트 활용 사례에 xhigh 수준을, 기타 지능 집약적 작업에는 최소 high 수준을 권장하고 있습니다 .
프롬프트 캐싱(Prompt Caching) 요금은 5분짜리 캐시 쓰기의 경우 100만 토큰당 6.25달러, 1시간짜리 캐시 쓰기는 10달러, 캐시 히트 및 갱신 시에는 0.50달러로 책정되었습니다 .
오푸스 4.8 출시는 단순히 벤치마크 점수를 올리기 위한 것이 아니라, 기업과 개발자라는 특정 타깃층을 겨냥한 업그레이드입니다. 제품의 핵심 스토리는 에이전트 작업의 신뢰성, 불확실성에 대한 명시적인 처리, 그리고 작업 몰입도 조절을 통한 비용 대비 성능의 최적화를 개발자에게 직접 통제할 수 있도록 한 점에 방점이 찍혀 있습니다. 가격 전략 또한 보수적입니다. 표준 API 호출에 대한 인상은 전혀 없으며, 고속 모드의 대폭적인 가격 인하는 빠른 응답 속도가 중요한 애플리케이션에서 고속 추론에 대한 접근성을 크게 높였습니다.
Comments
0 comments