보고서게시됨2개월 전Last edited 지난달24 소스

앤트로픽, 클로드 오푸스 4.8 전격 공개: 경쟁 모델 제친 벤치마크 성능과 '정직함'으로 무장한 차세대 AI

클로드 오푸스 4.8, SWE 벤치 프로 에이전트 코딩에서 69.2%를 기록하며 GPT 5.5(58.6%) 및 제미나이 3.1 프로(54.2%)를 큰 격차로 제쳤다. 일반 API 가격은 100만 입력 토큰당 5달러, 출력 토큰당 25달러로 전작과 동일하게 책정됐다.

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

앤트로픽(Anthropic)이 2026년 5월 28일, 자사의 최상위 일반 공개 모델인 '클로드 오푸스 4.8(Claude Opus 4.8)'을 공식 출시했습니다 . 이번 업데이트는 전작 오푸스 4.7의 뒤를 이어 코딩, 장시간 소요되는 에이전트 작업, 그리고 기업 환경에서 요구하는 신뢰성을 핵심 목표로 삼고 있습니다. 일반 API 이용 요금은 그대로 유지되었으며, 이전보다 훨씬 저렴해진 고속 모드와 새로운 워크플로우 도구들이 함께 공개되었습니다 .

주요 경쟁 모델과의 벤치마크 성능 비교

이번 출시에서 가장 널리 인용되고 있는 성능 비교 지표는 에이전트 코딩 벤치마크인 SWE-벤치 프로(SWE-Bench Pro) 점수입니다. 앤트로픽의 자체 평가 데이터에 따르면, 오푸스 4.8은 이 테스트에서 **69.2%**라는 선두급 점수를 기록했습니다. 이는 전작 오푸스 4.7의 64.3%를 넘어선 것은 물론, 오픈AI의 GPT-5.5(58.6%)와 구글의 제미나이 3.1 프로(54.2%)를 큰 폭으로 앞지른 수치입니다 .

다만, 광범위한 에이전트 코딩 평가 전반에서 GPT-5.5가 특정 분야에서 리더십을 보이는 부분도 존재합니다. 터미널벤치 2.1(Terminal-Bench 2.1) 에이전트 터미널 코딩 평가에서는 GPT-5.5가 78.2%를 획득하여 오푸스 4.8의 74.6%와 제미나이 3.1 프로의 70.3%를 앞섰습니다 .

앤트로픽의 내부 벤치마크는 지식 작업 영역에서의 향상도 보여줍니다. 경제적 가치가 높은 지식 작업을 평가하는 GDPval-AA 평가에서 오푸스 4.8은 1890점을 기록했으며, 이는 GPT-5.5의 1769점, 제미나이의 1314점보다 우수한 결과입니다 . 전체 테스트 스위트에서 앤트로픽은 오푸스 4.8이 여러 주요 부문에서 두 경쟁 모델을 능가한다고 주장하지만, 모든 단일 테스트를 압도한 것은 아닙니다 .

핵심 기술 업그레이드: '정직함(Honesty)'과 신뢰성

이번 오푸스 4.8 출시에서 앤트로픽이 단순한 지능 지표 향상보다 더욱 강조한 부분은 모델의 신뢰성입니다. 회사 측은 오푸스 4.8이 자신이 생성한 코드의 결함을 지적 없이 넘어갈 확률이 오푸스 4.7보다 약 4배 더 낮다고 발표했습니다 .

초기 테스터들은 이 모델이 복잡한 다단계 작업 수행 중 자신의 불확실성을 적극적으로 표시하며, 근거가 부족한 주장을 하는 경향이 현저히 줄었다고 평가했습니다 . 앤트로픽은 이번 출시에서 '정직함'을 하나의 주요 제품 기능으로 내세우며, 모델이 불충분한 정보를 사실인 것처럼 제시할 가능성이 줄어들었다고 밝혔습니다 .

동적 워크플로우 및 작업 몰입도 제어 기능 도입

기본 모델 공개와 함께, 앤트로픽은 개발자와 고급 사용자들을 위한 새로운 기능들도 함께 선보였습니다 .

동적 워크플로우(Dynamic Workflows): 클로드 코드(Claude Code)에서 연구 미리보기로 제공되는 이 기능은 모델이 작업을 계획하고, 수백 개의 병렬 하위 에이전트들을 구성하여 작업을 조율한 뒤, 결과를 검증하고 보고하는 과정을 자동화합니다. 이는 단일 세션 내에서 대규모 코드 마이그레이션, 감사(Auditing), 버그 헌팅(Bug Hunting)과 같은 방대한 작업을 위해 설계되었습니다 .

조절 가능한 몰입도 / 노력 제어(Adjustable Engagement / Effort Control): 이제 사용자는 claude.ai 및 클로드 코드에서 모델의 추론 깊이를 직접 설정할 수 있습니다. '노력(effort)' 매개변수를 통해 지능 수준, 토큰 비용, 처리 속도 사이의 균형을 조절하는 것이죠. 공식 문서는 가장 까다로운 코딩 및 에이전트 활용 사례에 xhigh 수준을, 기타 지능 집약적 작업에는 최소 high 수준을 권장하고 있습니다 .

API 가격 체계 상세 분석

일반 API 이용 요금은 이전 세대와 동일하게 책정되었습니다 .

표준 요금: 100만 입력 토큰당 5달러, 100만 출력 토큰당 25달러 .
고속 모드(Fast Mode) 요금: 100만 입력 토큰당 10달러, 100만 출력 토큰당 50달러. 이 모드는 표준 속도보다 약 2.5배 빠르게 작동하며, 이전 오푸스 모델의 고속 모드와 비교하면 약 3배 저렴합니다 .

프롬프트 캐싱(Prompt Caching) 요금은 5분짜리 캐시 쓰기의 경우 100만 토큰당 6.25달러, 1시간짜리 캐시 쓰기는 10달러, 캐시 히트 및 갱신 시에는 0.50달러로 책정되었습니다 .

이번 발표가 AI 업계에 던지는 의미

오푸스 4.8 출시는 단순히 벤치마크 점수를 올리기 위한 것이 아니라, 기업과 개발자라는 특정 타깃층을 겨냥한 업그레이드입니다. 제품의 핵심 스토리는 에이전트 작업의 신뢰성, 불확실성에 대한 명시적인 처리, 그리고 작업 몰입도 조절을 통한 비용 대비 성능의 최적화를 개발자에게 직접 통제할 수 있도록 한 점에 방점이 찍혀 있습니다. 가격 전략 또한 보수적입니다. 표준 API 호출에 대한 인상은 전혀 없으며, 고속 모드의 대폭적인 가격 인하는 빠른 응답 속도가 중요한 애플리케이션에서 고속 추론에 대한 접근성을 크게 높였습니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.