Cộng đồng ước tính cửa sổ phát hành có thể rơi vào khoảng từ ngày 15 tháng 6 đến ngày 5 tháng 7 năm 2026, nhưng mốc thời gian đó hoàn toàn là suy đoán từ các lần xuất hiện trong nhật ký và không có bất kỳ sự xác nhận chính thức nào . Chưa có bất kỳ con số cụ thể nào về giá cả, hiệu quả token hay khả năng đa phương thức được xác nhận cho GPT‑5.6 giả định; kỳ vọng về hiệu quả chi phí và khả năng tạo văn bản kèm hình ảnh chỉ là suy luận từ quỹ đạo phát triển của dòng 5.x, không phải một thông số kỹ thuật đã được ghi nhận
.
Điểm mấu chốt: GPT‑5.6 là một rò rỉ đáng tin cậy, không phải một sản phẩm. Ngành công nghiệp đang theo dõi các hành vi ở phía máy chủ, nhưng chưa có ngày ra mắt hay bảng thông số kỹ thuật nào được OpenAI công bố .
Cụm từ “Bài kiểm tra Mythos” (Mythos Benchmark) xuất hiện trong nhiều bối cảnh khác nhau, có thể gây nhầm lẫn:
Vụ rò rỉ mô hình Claude Mythos của Anthropic (26/3/2026): Một lỗi cấu hình trong hệ thống quản lý nội dung của Anthropic đã vô tình làm lộ khoảng 3,000 tài liệu nội bộ, bao gồm một bài đăng nháp về mô hình thế hệ tiếp theo có tên mã “Capybara” và tên chính thức là Claude Mythos . Các bài kiểm tra nội bộ bị rò rỉ cho thấy Mythos đạt 93.9% trên SWE‑bench Verified và 77.8% trên SWE‑bench Pro, dẫn đầu mọi bài đánh giá lập trình lớn vào thời điểm đó
. Vào ngày 7 tháng 4 năm 2026, Anthropic đã chính thức công bố Claude Mythos Preview—nhưng đồng thời tuyên bố rằng công chúng không thể sử dụng nó
. Mô hình này cũng bị gắn cờ vì khả năng an ninh mạng đặc biệt, bao gồm việc tìm ra một lỗi đã tồn tại 27 năm trong hệ điều hành OpenBSD
.
Bài kiểm tra an ninh của Đại học Carnegie Mellon (tháng 5/2026): Các nhà nghiên cứu CMU đã tạo ra một bài đánh giá riêng biệt để kiểm tra xem liệu các mô hình AI có thể tự động phát triển các lỗ hổng trình duyệt thực tế nhắm vào công cụ V8 của Google hay không. Cả Claude Mythos và GPT‑5.5 đều chứng minh khả năng khám phá và vũ khí hóa các lỗ hổng bảo mật thực sự mà không cần sự can thiệp của con người, trong đó Mythos vượt trội hơn GPT‑5.5 với một biên độ đáng kể nhưng chi phí vận hành đắt hơn khoảng mười hai lần .
Bài kiểm tra lỗ hổng Mythos của SecureAI (tháng 1/2026): Một bộ tiêu chuẩn tập trung vào an ninh mạng bao gồm các lỗ hổng CVE từ năm 2023–2026, được thiết kế để đánh giá các trình phát hiện lỗ hổng AI, sử dụng các mô hình lớn như Llama‑3.1‑405B làm bộ tham chiếu cơ sở .
Khi ai đó đề cập đến “vụ rò rỉ Bài kiểm tra Mythos”, họ thường đang nói về vụ rò rỉ mô hình của Anthropic. Các bài kiểm tra của CMU và SecureAI là những nỗ lực riêng biệt, chỉ trùng hợp chia sẻ nhãn “Mythos”.
Vào ngày 2 tháng 6 năm 2026, tại sự kiện “Intelligence at Work”, OpenAI đã công bố một sự mở rộng cấu trúc của Codex từ một tác nhân lập trình tập trung vào nhà phát triển thành một nền tảng công việc doanh nghiệp rộng lớn hơn . Ba trụ cột đã được xác nhận của thông báo này là:
OpenAI cũng xác nhận rằng Codex đã vượt qua 5 triệu người dùng hoạt động hàng tuần . Sự mở rộng này thể hiện một bước đi chiến lược rõ ràng nhằm thu hút những người lao động tri thức không phải lập trình viên trong doanh nghiệp, một hướng đi mà nhiều phân tích độc lập đã xác định là trục cạnh tranh trực tiếp với các công cụ trước đây hầu như chỉ tập trung vào các đội ngũ kỹ thuật
.
Tại hội nghị Build thường niên ở San Francisco vào ngày 2 tháng 6 năm 2026, Microsoft đã giới thiệu một gia đình gồm bảy mô hình AI nội bộ dưới thương hiệu thống nhất MAI (Microsoft AI), bên cạnh phần cứng mới .
Tâm điểm là MAI‑Thinking‑1, mô hình suy luận đầu tiên của công ty:
Sáu mô hình còn lại hoàn thiện một hệ sinh thái đa phương thức:
Các thông báo về phần cứng bao gồm Surface RTX Spark Dev Box, một máy phát triển AI nhỏ gọn có khả năng đạt tới một petaflop sức mạnh tính toán AI với 128 GB bộ nhớ hợp nhất, được thiết kế để chạy cục bộ các mô hình lên đến 120 tỷ tham số . Microsoft cũng giới thiệu chip lượng tử Majorana 2, báo hiệu sự tăng tốc tham vọng phần cứng của mình vượt ra ngoài tính toán AI cổ điển
.
Gia đình bảy mô hình MAI được nhiều người hiểu là một động thái nhằm giảm sự phụ thuộc vào các mô hình của OpenAI, đồng thời cung cấp cho khách hàng doanh nghiệp các giải pháp thay thế nội bộ đi kèm với giấy phép thương mại sạch sẽ .
“Vibe coding”—thói quen tạo ra toàn bộ ứng dụng thông qua các câu lệnh hội thoại thay vì viết cú pháp—đã sản sinh ra một thế hệ bài kiểm tra mới nhằm đo lường khả năng lập trình toàn diện thay vì chỉ các tác vụ riêng lẻ:
Ba nền tảng này chia sẻ mục tiêu đưa việc đánh giá lập trình AI vượt ra ngoài các bài kiểm tra tỷ lệ vượt qua như SWE‑bench, hướng tới các thước đo toàn diện về khả năng sử dụng, tốc độ, chi phí và bảo mật.
Vào ngày 2 tháng 6 năm 2026, Nous Research đã phát hành Hermes Desktop dưới dạng bản xem trước công khai, đóng gói cùng Hermes Agent v0.15.2 và xuất bản theo giấy phép MIT cho macOS 12+, Windows 10/11 và Linux .
Trước đây, Hermes chỉ có thể truy cập thông qua giao diện dòng lệnh (CLI) hoặc các cổng nhắn tin. Ứng dụng máy tính là một giao diện đồ họa gốc, chia sẻ cùng lõi tác nhân, khóa API, phiên làm việc, kỹ năng và bộ nhớ với CLI, vì vậy đây là một bề mặt tương tác thay thế chứ không phải một phiên bản rẽ nhánh .
Nous Research mô tả Hermes như một “tác nhân tự cải thiện, không phải trợ lý lập trình” . Tác nhân này đã tăng trưởng lên khoảng 180,000 sao trên GitHub chỉ trong khoảng ba tháng, khiến nó trở thành một trong những dự án tác nhân mã nguồn mở phát triển nhanh nhất trong hệ sinh thái
.
Alibaba đã ra mắt Qwen 3.7 Plus vào khoảng ngày 1–2 tháng 6 năm 2026. Đây là một mô hình tác nhân đa phương thức xử lý văn bản, hình ảnh và video thông qua đào tạo hợp nhất sớm (early‑fusion), với cửa sổ ngữ cảnh 1 triệu token .
Mức giá được thiết lập chỉ bằng khoảng một phần sáu chi phí trên mỗi token của mô hình chỉ văn bản Qwen 3.7 Max, khiến nó trở thành một trong những tác nhân đa phương thức có giá cạnh tranh nhất trên thị trường . Trên các bài kiểm tra hiệu suất tác nhân, Qwen 3.7 Plus đánh bại Claude Opus 4.6 trên Terminal‑Bench 2.0 và có khả năng nhận diện/tự động hóa giao diện người dùng (UI), tạo mã nguồn từ hình ảnh và trả lời câu hỏi trực quan
.
Claude Code là công cụ lập trình tác nhân của Anthropic hoạt động trực tiếp trong cửa sổ dòng lệnh, chạy các lệnh shell và chỉnh sửa tệp trên máy của nhà phát triển. Lệnh /fork tạo ra một phiên làm việc mới phân nhánh từ một phiên hiện có, được lưu trữ trong commands/branch/, cho phép một quy trình làm việc nơi các nhà phát triển có thể khám phá một hướng đi khác mà không làm mất ngữ cảnh từ phiên làm việc gốc .
Claude Code đã trở thành một trong những công cụ phát triển AI được áp dụng rộng rãi nhất, với một gói npm từng có được hơn 1,100 sao và 1,900 lượt phân nhánh chỉ trong một ngày .
Một số mục trong cuộc điều tra ban đầu thiếu xác nhận trực tiếp từ nguồn tin tính đến đầu tháng 6 năm 2026:
Các chủ đề chủ đạo trong tuần đầu tiên của tháng 6 năm 2026 là công cụ doanh nghiệp (các plugin Codex và Sites), các gia đình mô hình nội bộ (dòng MAI của Microsoft, Qwen của Alibaba), sự trưởng thành của tác nhân mã nguồn mở (Hermes Desktop), và một thế hệ tiếp theo vẫn chưa được công bố công khai (GPT‑5.6, Claude Mythos). Ngành công nghiệp đang chuyển động rất nhanh—nhưng sự phân biệt giữa sản phẩm đã được xác nhận và tin đồn chưa được kiểm chứng lại sắc nét hơn nhiều so với những gì các tiêu đề báo chí thường gợi ý.
Comments
0 comments