2025년 2월부터 5월 정식 출시까지 이어진 0.2.x 시리즈는 터미널 경험을 점차 안정화시켰고, GA 버전이 되었을 무렵에는 실무 소프트웨어 엔지니어링 작업에 바로 투입할 수 있는 수준이었습니다 .
Claude Code의 진정한 능력은 Anthropic의 주력 모델에서 나옵니다. 각 Opus 세대는 코딩, 추론, 신뢰성에서 직접적인 개선을 가져왔습니다.
2025년 11월 출시된 Claude Opus 4.5는 코딩, 에이전트, 컴퓨터 사용 분야에서 세계 최고 수준의 모델로 자리매김하며, 이후 기반이 되는 Opus 4.x 아키텍처를 확립했습니다 .
Opus 4.6은 계획 수립, 장기간 에이전트 작업의 신뢰성, 대규모 코드베이스 운영 능력을 크게 향상시켰습니다. 특히 주목할 점은 베타 버전으로 제공된 100만 토큰 컨텍스트 윈도우로, Opus 클래스 모델 최초로 이 정도 규모의 컨텍스트를 다루게 되었습니다 .
Opus 4.6에서 4.7로의 도약은 코딩 벤치마크에 지각 변동을 일으켰습니다. 단일 모델 출시로 SWE-bench Verified 점수를 80.8%에서 87.6%로 끌어올렸습니다 (적응형 모드 기준) . 또한 SWE-bench Pro 점수도 53.4%에서 64.3%로 올라, 가장 가까운 경쟁 모델보다 10포인트 이상 앞서게 되었습니다
.
Opus 4.7은 작업별로 컴퓨팅 자원을 동적으로 할당하는 '적응형 사고(Adaptive Thinking)'를 도입했으며, 100만 토큰 컨텍스트 윈도우를 Anthropic API, Amazon Bedrock, Google Cloud Vertex AI 등에서 프로덕션 수준으로 안정화했습니다 .
가장 최근 업그레이드는 혁신보다는 완성도를 높이는 데 집중했습니다. Opus 4.8은 Opus 4.7을 기반으로 SWE-bench Pro 점수를 64.3%에서 69.2%로 개선하면서도, 감지되지 않은 코드 결함 비율을 획기적으로 줄였습니다. Anthropic에 따르면, 이 모델은 자신이 작성한 코드의 결함을 그냥 넘어갈 확률이 이전보다 4배나 낮으며, 초기 테스터들은 자신의 작업에 대한 불확실성을 더 잘 표시하고 근거 없는 주장을 피하려는 경향을 보고했습니다 .
결정적으로 Opus 4.8은 Opus 4.7과 API 호환성을 유지하며 동일한 가격으로 제공됩니다. 여기에 더해 이전 모델 대비 2.5배 빠르고 비용은 1/3에 불과한 '패스트 모드(Fast Mode)'를 도입하여 Claude Code의 개발자 경험을 한층 개선했습니다 .
Anthropic은 2026년 5월 6일(현지시간) 샌프란시스코에서 첫 연례 개발자 컨퍼런스 'Code with Claude'를 개최했으며, 런던과 도쿄에서 위성 행사도 함께 진행했습니다 . 이 행사에서 새로운 모델 대신 Claude Managed Agents를 위한 플랫폼 기능들에 모든 초점을 맞추었습니다.
드리밍(Dreaming, 연구용 프리뷰) 은 이 중 가장 개념적으로 야심 찬 기능입니다. 에이전트가 유휴 상태일 때, 예약된 백그라운드 프로세스가 최대 100개의 과거 대화를 검토하여 반복되는 패턴, 워크플로우, 실수를 추출한 다음 에이전트의 메모리 저장소를 더 높은 신호로 재구성합니다. 원본 세션 데이터는 변경되지 않으며, 에이전트가 이러한 메모리 업데이트를 명시적으로 채택할 때만 적용됩니다. 개발자는 메모리가 변경되기 전에 수동 검토를 선택할 수도 있습니다 .
이 메커니즘을 통해 에이전트는 직접적인 재학습 없이도 시간이 지남에 따라 성능을 개선할 수 있습니다. 현재 이 기능은 연구용 프리뷰 단계로, 접근 권한을 신청해야 사용할 수 있습니다 .
아웃컴즈(Outcomes, 퍼블릭 베타) 는 구조화된 성공 기준을 도입합니다. 별도의 평가자가 격리된 컨텍스트 윈도우에서 실행되어 개발자가 정의한 루브릭에 따라 에이전트의 결과물을 평가합니다. 점수가 기준치 미만이면 에이전트가 자동으로 재시도합니다 .
멀티 에이전트 오케스트레이션(Multi-Agent Orchestration, 퍼블릭 베타) 을 통해 리드 에이전트가 복잡한 작업을 분해하여, 각자 다른 모델, 프롬프트, 도구를 가진 전문 서브 에이전트들에 작업을 분배하고 공유 파일 시스템에서 병렬로 실행할 수 있습니다 .
Managed Agents 기능 외에도 Code with Claude에서는 여러 가지가 함께 발표되었습니다:
Claude Code의 상징적인 벤치마크 수치는 Claude Opus 4.7의 적응형 모드에서 달성한 SWE-bench Verified **87.6%**입니다 . 이 점수는 2026년 6월 현재 일반적으로 사용 가능한 AI 코딩 에이전트 중 가장 높은 공개 점수입니다.
SWE-bench Verified는 오픈소스 Python 저장소의 실제 GitHub 이슈 500개를 엔드 투 엔드로 해결해야 하는 큐레이션된 테스트 세트입니다. 이는 에이전트형 소프트웨어 엔지니어링의 표준 기준이 되었으며, 이 리더보드에서 Claude Code가 Opus 4.5의 80.9%에서 Opus 4.7의 87.6%로 상승한 것은 제품의 핵심 서사였습니다 .
87.6%라는 수치는 고정된 것이 아닙니다. 모델, 프롬프트, 그리고 도구 사용을 조율하는 런타임 환경인 '하네스(harness)'에 따라 달라집니다. Claude Opus 4.7의 적응형 모드는 작업별로 컴퓨팅 자원을 동적으로 할당하여 복잡한 리팩토링에 더 많은 리소스를 투입합니다. 이 적응형 하네스 없이 단독 실행되는 Claude Code의 경우 동일 벤치마크에서 80.8%를 기록합니다 .
더 어려운 실제 이슈 해결 능력을 평가하는 SWE-bench Pro에서 Opus 4.7은 64.3%를 기록하여 GPT-5.4 (57.7%), GPT-5.5 (58.6%), Gemini 3.1 Pro (54.2%)를 크게 앞섰습니다 . Opus 4.8은 이후 SWE-bench Pro 점수를 69.2%까지 끌어올렸습니다
.
Claude Code의 성능은 여러 벤치마크에 걸쳐 있습니다:
경쟁 구도가 여전히 유동적이라는 점도 주목할 만합니다. OpenAI의 GPT-5.5가 2026년 중반 SWE-bench Verified에서 88.7%로 잠시 선두를 차지하며, Claude가 SWE-bench Pro에서, GPT-5.5가 Verified에서 앞서는 양상이 연출되기도 했습니다 . 리더보드는 각 모델 출시와 함께 계속 변화하고 있습니다.
Claude Code에 대한 Anthropic의 포지셔닝은 장기적 자율성(long-horizon autonomy) 개념으로 수렴됩니다. Claude Opus 4.8은 "장시간 실행되는 작업을 지속적으로 수행할 수 있는 일관성과 자율성"을 갖춘 것으로 묘사되며, 구체적으로 "복잡한 추론, 장기 에이전트 코딩, 고도의 자율 작업을 위한 Anthropic의 가장 유능한 모델"로 명시되어 있습니다 .
단발성 프롬프트 완성이 아닌, 지속적이고 독립적인 작업 수행을 강조하는 점이 Claude Code의 가장 분명한 차별점입니다. '드리밍', 적응형 컴퓨팅 할당, 멀티 에이전트 오케스트레이션과 같은 기능들은 모두 에이전트가 세션을 넘나들며 작동하고, 자신의 결과물로부터 배우며, 최소한의 개발자 개입으로 복잡한 다중 파일 프로젝트를 관리할 것이라는 철학을 가리킵니다.
Anthropic은 또한 모델의 '정직함'을 경쟁 우위로 강조하기 시작했습니다. Opus 4.8 출시에서는 모델이 불확실성을 표시하고 근거 없는 주장을 피하려는 의지가 강조되었는데 , 이는 프로덕션 환경에서 에이전트의 결과물을 신뢰해야 하는 개발자를 겨냥한 실용적인 안전 중심의 프레이밍입니다.
Comments
0 comments