Ngay từ đầu, Claude Code đã được thiết kế cho quy trình làm việc thực tế của nhà phát triển. Nó có thể tìm kiếm và đọc mã, chỉnh sửa tệp, chạy thử nghiệm và đẩy lên GitHub — tất cả từ dòng lệnh . Bản xem trước ban đầu có phạm vi hạn chế, nhưng phản hồi từ cộng đồng nhà phát triển là ngay lập tức. Đến tháng 3 năm 2025, công cụ đã có thêm hỗ trợ dán hình ảnh và @-mention tệp; đến tháng 4 năm 2025, tính năng lưu trữ phiên làm việc và tiếp tục công việc đã được thêm vào, cho phép các cuộc hội thoại mang theo ngữ cảnh qua các lần khởi động lại
.
Chuỗi phiên bản 0.2.x, kéo dài từ tháng 2 đến khi ra mắt chính thức vào tháng 5, đã dần ổn định hóa trải nghiệm terminal. Khi Claude Code đạt GA, nó đã sẵn sàng cho môi trường sản xuất (production) phục vụ công việc kỹ thuật phần mềm liên tục .
Đằng sau năng lực của Claude Code là các mô hình hàng đầu kế tiếp của Anthropic. Mỗi thế hệ Opus đều trực tiếp cải thiện khả năng lập trình, suy luận và độ tin cậy của công cụ.
Claude Opus 4.5, phát hành vào tháng 11 năm 2025, được định vị là mô hình tốt nhất thế giới cho việc lập trình, tác nhân và sử dụng máy tính . Nó thiết lập kiến trúc Opus 4.x sẽ trở thành nền tảng cho nền tảng này.
Opus 4.6 mang đến những cải tiến đáng kể trong việc lập kế hoạch, độ tin cậy cho các tác vụ tác nhân kéo dài và hoạt động trên các kho mã lớn. Đáng chú ý nhất, nó giới thiệu cửa sổ ngữ cảnh 1 triệu token ở bản beta — mô hình cấp Opus đầu tiên xử lý ngữ cảnh ở quy mô này .
Bước nhảy vọt từ Opus 4.6 lên Opus 4.7 mang tính đột phá đối với các bài kiểm tra lập trình. Chỉ trong một lần phát hành mô hình, Anthropic đã tăng từ 80,8% lên 87,6% trên SWE-bench Verified (chế độ thích ứng - adaptive mode) . Nó cũng đẩy SWE-bench Pro từ 53,4% lên 64,3% — bỏ xa đối thủ gần nhất hơn 10 điểm
.
Opus 4.7 giới thiệu suy nghĩ thích ứng (adaptive thinking), tự động phân bổ tài nguyên tính toán cho từng tác vụ, và ổn định hóa cửa sổ ngữ cảnh 1 triệu token ở chất lượng sản xuất trên Anthropic API, Amazon Bedrock và Vertex AI của Google Cloud .
Bản nâng cấp mô hình gần đây nhất tập trung vào tinh chỉnh thay vì biến đổi. Opus 4.8 xây dựng trực tiếp trên Opus 4.7, cải thiện điểm SWE-bench Pro từ 64,3% lên 69,2% trong khi giảm đáng kể tỷ lệ lỗi mã không được phát hiện. Anthropic báo cáo rằng mô hình này ít có khả năng bỏ sót các lỗi trong mã của chính nó hơn bốn lần, và những người thử nghiệm quan sát thấy nó sẵn sàng nêu ra sự không chắc chắn và tránh đưa ra các tuyên bố không có căn cứ hơn .
Điều quan trọng là, Opus 4.8 duy trì khả năng tương thích API với Opus 4.7 và có cùng mức giá. Nó cũng mang đến Chế độ Nhanh (Fast Mode) nhanh hơn gấp 2,5 lần với chi phí chỉ bằng một phần ba so với các mô hình trước đây, trực tiếp cải thiện trải nghiệm của nhà phát triển trong Claude Code .
Anthropic đã tổ chức hội nghị nhà phát triển thường niên đầu tiên, Code with Claude, vào ngày 6 tháng 5 năm 2026 tại San Francisco, với các sự kiện vệ tinh ở London và Tokyo . Thay vì giới thiệu một mô hình mới, sự kiện này hoàn toàn tập trung vào năng lực nền tảng — đáng chú ý nhất là các tính năng cho Claude Managed Agents (Tác nhân được quản lý).
Anthropic đã tung ra bốn tính năng cho môi trường thực thi (runtime) tác nhân có trạng thái, được lưu trữ của mình (ra mắt bản beta công khai chỉ khoảng một tháng trước đó vào đầu tháng 4 năm 2026) .
Dreaming (Bản Xem Trước Nghiên Cứu) là tính năng tham vọng nhất về mặt ý tưởng. Khi các tác nhân không hoạt động, một quy trình nền đã lên lịch sẽ xem xét tới 100 cuộc hội thoại trong quá khứ, trích xuất các mẫu hình, quy trình làm việc và lỗi lặp lại, sau đó viết lại kho bộ nhớ của tác nhân để đạt tín hiệu cao hơn. Dữ liệu phiên gốc được giữ bất biến — tác nhân chỉ áp dụng các cập nhật bộ nhớ này một cách rõ ràng và các nhà phát triển có thể chọn xem xét thủ công trước khi bộ nhớ thay đổi .
Cơ chế này cho phép các tác nhân cải thiện theo thời gian mà không cần đào tạo lại trực tiếp. Hiện nó có sẵn trong bản xem trước nghiên cứu và cần đăng ký để truy cập .
Outcomes (Beta Công Khai) giới thiệu các tiêu chí thành công có cấu trúc. Một bộ đánh giá riêng biệt chạy trong một cửa sổ ngữ cảnh biệt lập, chấm điểm đầu ra của tác nhân dựa trên các tiêu chí do nhà phát triển xác định. Nếu điểm số dưới ngưỡng, tác nhân sẽ tự động thử lại .
Điều phối Đa Tác nhân (Multi-Agent Orchestration, Beta Công Khai) cho phép một tác nhân chính phân rã các tác vụ phức tạp và phân phối công việc cho một nhóm các tác nhân phụ chuyên biệt — mỗi tác nhân có mô hình, lời nhắc và công cụ riêng — chạy song song trên một hệ thống tệp dùng chung .
Webhooks (Beta Công Khai) cho phép các tác nhân gửi thông báo đến các hệ thống bên ngoài khi tác vụ hoàn thành, chuyển các quy trình làm việc của tác nhân từ hội thoại sang hướng sự kiện .
Cùng với các tính năng của Tác nhân được Quản lý, Code with Claude còn có một số ra mắt khác:
Con số benchmark nổi bật của Claude Code là điểm 87,6% trên SWE-bench Verified, đạt được với Claude Opus 4.7 ở chế độ thích ứng . Điểm số này đại diện cho kết quả được công bố cao nhất trong số các tác nhân lập trình AI phổ biến tính đến tháng 6 năm 2026.
SWE-bench Verified là một tập hợp gồm 500 vấn đề thực tế trên GitHub được tuyển chọn từ các kho lưu trữ Python mã nguồn mở mà tác nhân phải giải quyết một cách toàn diện. Nó đã trở thành tham chiếu tiêu chuẩn của ngành cho kỹ thuật phần mềm tác nhân và sự thăng tiến của Claude Code trên bảng xếp hạng này — từ 80,9% trên Opus 4.5 lên 87,6% trên Opus 4.7 — là một câu chuyện cốt lõi cho sản phẩm .
Con số 87,6% không phải là cố định. Nó phụ thuộc vào mô hình, lời nhắc (prompt) và "bộ khai thác" (harness) — môi trường runtime điều phối việc sử dụng công cụ. Chế độ thích ứng của Claude Opus 4.7 tự động phân bổ tài nguyên tính toán cho mỗi tác vụ, dành nhiều tài nguyên hơn cho các đợt tái cấu trúc phức tạp. Claude Code độc lập không có bộ khai thác thích ứng này đạt 80,8% trên cùng benchmark .
Trên benchmark khó hơn là SWE-bench Pro — kiểm tra việc giải quyết vấn đề thực tế khó hơn — Opus 4.7 đạt 64,3%, dẫn trước GPT-5.4 (57,7%), GPT-5.5 (58,6%) và Gemini 3.1 Pro (54,2%) . Opus 4.8 sau đó đã đẩy SWE-bench Pro lên 69,2%
.
Hiệu suất của Claude Code trải rộng trên một số benchmark:
Trong các bài đánh giá mù về chất lượng mã, Claude Code thắng 67% các cuộc so sánh trực tiếp với đối thủ cạnh tranh .
Điều đáng chú ý là bức tranh cạnh tranh vẫn đang thay đổi. GPT-5.5 của OpenAI đã có thời điểm vươn lên dẫn trước trên SWE-bench Verified với 88,7% vào giữa năm 2026, tạo ra sự phân chia khi Claude Code dẫn đầu SWE-bench Pro và GPT-5.5 dẫn đầu Verified . Bảng xếp hạng tiếp tục phát triển với mỗi lần phát hành mô hình.
Định vị của Anthropic cho Claude Code đã kết tinh xung quanh khái niệm tự chủ dài hạn (long-horizon autonomy). Claude Opus 4.8 được mô tả là có "tính nhất quán và khả năng tự chủ để tiếp tục làm việc trên các tác vụ kéo dài" và được gắn nhãn cụ thể là "mô hình có năng lực nhất của Anthropic cho suy luận phức tạp, lập trình tác nhân dài hạn và công việc tự chủ cao" .
Sự nhấn mạnh vào hoạt động độc lập, liên tục thay vì hoàn thành lời nhắc một lần duy nhất là điểm khác biệt rõ ràng nhất của Claude Code. Các tính năng như dreaming, phân bổ tính toán thích ứng và điều phối đa tác nhân đều hướng đến một triết lý mà tác nhân được kỳ vọng sẽ hoạt động xuyên suốt các phiên, học hỏi từ đầu ra của chính nó và quản lý các dự án đa tệp phức tạp với sự can thiệp tối thiểu từ nhà phát triển.
Anthropic cũng bắt đầu nhấn mạnh tính trung thực của mô hình như một lợi thế cạnh tranh. Bản phát hành của Opus 4.8 nhấn mạnh sự sẵn sàng của mô hình trong việc nêu ra sự không chắc chắn và tránh đưa ra các tuyên bố không có căn cứ — một cách định khung thực tế hướng đến an toàn, nhắm vào các nhà phát triển cần tin tưởng đầu ra của tác nhân của họ trong môi trường sản xuất .
Comments
0 comments