報告已發布2 個月前Last edited 2 個月前54 來源

2026年6月AI大潮：GPT-5.6傳聞、Codex進軍企業界，同埋一個星期嘅瘋狂產品發佈

2026年6月頭一個星期，AI界罕見咁爆出一堆重大產品發佈——OpenAI將Codex擴展到企業應用、微軟推出7個MAI模型、阿里巴巴發佈Qwen 3.7 Plus，仲有開源嘅Hermes桌面應用程式——但同時… OpenAI根本未正式公佈過GPT 5.6；坊間傳緊嘅150萬token上下文視窗同內部代號iris alpha，其實只係開發人員喺後台紀錄度見到嘅蛛絲馬跡，絕對唔係官方產品發佈。 Anthropic嘅Claude Mythos Preview係有紀錄以嚟最強嘅AI模型（SWE bench Verified攞到93.9%），但Anthropic講到明呢個模型唔會開放俾公眾使用。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

An abstract digital illustration representing the rapid pace of AI development, with glowing network nodes and data streams converging on a central futuristic core. — Research online for What are the key recent developments in AI, including the rumored capabilities of OpenAI's GPT-5.6 (with improved tokenThe first week of June 2026 marked an unusually dense cluster of AI product launches from OpenAI, Microsoft, Nous Research, and Alibaba. (Image: AI-generated)
AI 提示
Create a landscape editorial hero image for this Studio Global article: Research online for What are the key recent developments in AI, including the rumored capabilities of OpenAI's GPT-5.6 (with improved token. Article summary: The first week of June 2026 has been one of the most product-dense periods in AI history, with major releases from OpenAI, Microsoft, Alibaba, Nous Research, and Anthropic clustering around June 2–4. The dominant themes . Topic tags: deepresearch, general web, user generated, academic, documentation. Reference image context from search candidates: Reference image 1: visual subject "The strongest rumor window points to June 2026, especially the first half of the month, but that is a market expectation and leak interpretation" source context "ChatGPT 5.6 release date rumors point to June but OpenAI has not confirmed it" Reference image 2: visual subject "IT and ma
openai.com

2026年6月嘅頭幾日，AI業界出現咗一輪產品發佈同可靠爆料嘅密集轟炸，密度之高，就算以AI界呢種火箭式發展速度嚟講，都係極之罕見。OpenAI、微軟、阿里巴巴、Nous Research同Anthropic呢幾間巨頭，喺短短72個鐘之內連環出招。當中有一部份係官方已確認嘅消息，但有啲——特別係傳到好勁嘅GPT-5.6——就仍然停留喺「江湖傳聞」嘅階段。

呢篇文章會幫你將「正式發佈」同「傳聞」分開，所有資訊都係嚟自經過核實嘅公開來源，等你可以清清楚楚知道究竟乜嘢變咗，乜嘢仲係得個「傳」字。

OpenAI GPT-5.6：傳聞嚟㗎咋，官方未公佈㗎

截至2026年6月初，OpenAI並無正式公佈過一個叫「GPT-5.6」嘅模型。目前嘅旗艦模型仍然係2026年4月23日推出嘅GPT-5.5，佢有100萬token嘅上下文視窗，喺SWE-bench Verified攞到88.7%嘅分數，定價係每100萬輸入token 5蚊美金，每100萬輸出token 30蚊美金。

不過，有好多開發人員報告指出，後台系統入面有跡象顯示，下一代模型已經喺有限度嘅測試當中。大約喺2026年5月26日左右，開發人員喺OpenAI Codex嘅紀錄入面，發現咗一個內部代號叫 iris-alpha 嘅模型。同呢個代號掛鉤嘅主要傳聞規格係一個 150萬token嘅上下文視窗，比GPT-5.5嘅API上限大咗約43% 。據報有人透過OpenCode呢個工具做過真實世界測試，發現呢個神秘模型喺輸入去到90萬token嘅時候，仍然可以流暢咁回應，甚至處理超過105萬token嘅輸入都無問題。

坊間估計，可能嘅發佈窗口係2026年6月15日到7月5日之間，但呢個時間表純粹係根據見到後台紀錄嘅時間推算出嚟，絕對無官方認證。關於呢個假設性嘅GPT-5.6，暫時無任何具體嘅定價、Token效率數據，或者已確認嘅多模態功能流出；外界期望佢會有更好嘅成本效益同文字加圖片生成能力，呢啲都係根據5.x系列嘅發展軌跡推斷出嚟，而唔係有文件證明嘅規格。

一句講晒： GPT-5.6只係一個幾可信嘅傳聞，絕對唔係一個正式產品。業界𠵎家𥄫實佢哋後台嘅一舉一動，但OpenAI至今未公佈任何發佈日期或者技術規格。

「Mythos基準」同Claude Mythos模型嘅來龍去脈

「Mythos基準」呢個詞出現喺幾個唔同嘅情境入面，好容易令人混淆：

Anthropic嘅Claude Mythos模型洩露事件（2026年3月26日）： 因為Anthropic嘅內容管理系統設定出錯，意外咁將大約3,000份內部文件曝咗光，當中包括一篇關於下一代模型嘅草擬文章，內部代號係「水豚」（Capybara），正式名叫Claude Mythos 。洩露出嚟嘅內部基準測試顯示，Mythos喺SWE-bench Verified攞到93.9%，喺SWE-bench Pro攞到77.8%，喺當時領先晒所有主要嘅編程基準測試。到咗2026年4月7日，Anthropic正式公佈咗Claude Mythos Preview——但同時宣布公眾「無得用」呢個模型。呢個模型仲被指有超強嘅網絡安全能力，包括喺OpenBSD入面搵到一個潛伏咗27年嘅漏洞。
卡內基梅隆大學嘅安全基準測試（2026年5月）： CMU嘅研究人員整咗另一個獨立嘅評估，測試AI模型能唔能夠自主開發針對Google V8引擎嘅真實瀏覽器漏洞。結果，Claude Mythos同GPT-5.5都證實有能力喺無任何人類介入嘅情況下，發現同利用真正嘅安全漏洞，而Mythos嘅表現明顯好過GPT-5.5，但營運成本就貴大約十二倍。
SecureAI嘅Mythos漏洞基準測試（2026年1月）： 呢個係一個專注網絡安全嘅基準測試套件，涵蓋2023至2026年嘅CVE漏洞，目的係評估AI漏洞偵測器，用咗Llama-3.1-405B呢類大型模型做基線。

當有人提起「Mythos基準洩露」，佢哋通常係指Anthropic模型嗰次事件。CMU同SecureAI嘅基準測試係獨立嘅項目，只係咁啱都同「Mythos」呢個名扯上關係。

OpenAI Codex：由編程工具轉型做企業工作平台

2026年6月2日，OpenAI喺佢嘅「Intelligence at Work」活動入面，宣布將Codex由一個以開發人員為主嘅編程代理，結構性咁擴展成一個更廣泛嘅企業工作平台。呢次公佈有三個已確認嘅重點：

六款針對特定職能嘅外掛程式： 包括銷售、數據分析、創意製作、產品設計、投資銀行同公開市場股票投資。每款外掛程式都捆綁咗常用商業軟件嘅整合功能——總共62個應用程式，包括Salesforce、Snowflake、Figma同HubSpot——仲有110種自動化技能。安裝同使用都唔使識寫Code 。
Codex Sites（預覽版）： 呢個功能俾用戶直接用指令叫Codex去建立、迭代同部署輕量級嘅全棧JavaScript/TypeScript網頁應用程式，仲會提供托管網址、「用ChatGPT登入」嘅身份驗證同檔案儲存功能。現階段只開放俾合資格嘅ChatGPT Enterprise同Edu工作區使用。
Annotations（註解功能）： 而家可以喺文件、簡報、試算表同Sites上面，做到段落級別嘅編輯回饋，唔再局限喺程式碼。

OpenAI亦確認咗，Codex嘅每星期活躍用戶已經超過500萬 。今次嘅擴展係一個清晰嘅戰略舉動，目標係要贏得企業入面嗰班唔識寫Code嘅知識型員工。多份獨立分析都指出，呢個方向直接同其他之前幾乎只專注喺工程團隊嘅工具打對台。

微軟Build 2026：七個MAI模型，一個推理引擎

2026年6月2日，微軟喺三藩市舉行嘅年度Build大會上面，一口氣推出咗七個自家製嘅AI模型，統一放喺MAI（Microsoft AI）呢個品牌之下，另外仲有新硬件。

焦點所在係 MAI-Thinking-1，係微軟第一個推理模型：

350億活躍參數，配備256K上下文視窗。
由零開始，用企業級、有商業授權嘅數據訓練，無用任何第三方模型「蒸餾」出嚟。
喺AIME 25（微軟內部評估通用推理能力嘅重要指標）攞到97%分數，喺軟件工程基準測試嘅表現亦拍得住頂尖模型；喺蒙眼測試入面，人類評審對佢嘅偏好程度同Sonnet 4.6差唔多。
設計目標係低Token成本，針對微軟嘅Maia 200晶片做咗最佳化。

其餘六個模型就組成咗一個多模態生態系統：

MAI-Code-1-Flash — 針對編程最佳化嘅模型。
MAI-Image-2.5 / MAI-Image-2.5-Flash — 圖像生成同佢嘅快速變體。
MAI-Transcribe-1.5 — 語音轉文字。
MAI-Voice-2 / MAI-Voice-2-Flash — 語音處理同合成。

硬件方面嘅公佈包括 Surface RTX Spark Dev Box，一部專為AI開發而設嘅小型電腦，可以提供高達1 petaflop嘅AI運算能力同128 GB統一記憶體，足夠喺本地運行高達1200億參數嘅模型。微軟仲推出咗 Majorana 2 量子晶片，顯示佢哋喺硬件方面嘅野心已經超越咗傳統嘅AI運算。

外界普遍認為，呢七個MAI模型嘅推出，係微軟想減少對OpenAI模型依賴嘅一步棋，同時俾企業客戶多一個「來歷清白」（有清晰商業授權）嘅自家選擇。

Vibe Coding評測大混戰：World of AI Bench、Vibe Code Bench同BridgeBench

「Vibe Coding」（ vibe編程）—— 即係透過對話式指令而唔係親手寫Syntax去生成整個應用程式嘅做法 —— 帶動咗新一代基準測試嘅出現，呢啲測試唔再係評估單一編程任務，而係嘗試去量度「全棧能力」。

World of AI Bench： 大約喺2026年6月2日推出，自稱「全球第一Vibe Coding基準測試」。佢用一個AI裁判，喺一個包含3,897個指令嘅庫入面，評估16個以上嘅前沿模型喺10個vibe coding類別嘅表現。平台係免費嘅，可以俾人做模型之間嘅直接對比。
Vibe Code Bench (VCB)： 由Vals.ai發表、喺arXiv上面有論文嘅學術性基準測試。佢用咗100個網頁應用程式規格，配以964個基於瀏覽器嘅工作流程（包含10,131個子步驟），係第一個喺模擬真實生產環境下，測試由自然語言指令到生成完整網頁應用程式嘅「端到端」能力嘅基準測試。
BridgeBench： 一個由BridgeMind推出嘅開源基準測試，評估AI編程模型喺速度、成本同程式碼質量方面嘅表現。佢嘅定位係要量度「當你用AI出貨時」最重要嘅嘢，用開放嘅方法論同公開嘅實時排行榜運作。

呢三個平台有個共同目標，就係將AI編程嘅評估，由SWE-bench呢類合格率測試，推向更全面嘅可用性、速度、成本同安全性嘅評分標準。

Hermes Agent桌面版：開源AI代理終於有介面用

2026年6月2日，Nous Research以公開預覽形式發佈咗 Hermes Desktop，捆綁咗Hermes Agent v0.15.2，用MIT授權條款發佈，支援macOS 12+、Windows 10/11同Linux 。

Hermes之前只能夠透過命令行介面（CLI）或者即時通訊網關嚟使用。呢個桌面應用程式係一個原生圖形前端，佢同CLI共享同一個代理核心、API密鑰、會話、技能同記憶，所以佢只係另一個操作介面，而唔係一個分支。

Nous Research將Hermes形容為一個「會自我進化嘅代理，而唔係編程副駕駛」。個代理由推出到而家，大約三個月左右，喺GitHub上面已經攞到大約18萬顆星，係成個AI開源生態系統入面，增長速度最快嘅代理項目之一。

阿里巴巴Qwen 3.7 Plus：成本只要六分之一嘅多模態代理

阿里巴巴大約喺2026年6月1至2日推出咗Qwen 3.7 Plus。佢係一個多模態代理模型，透過「早期融合」訓練，可以處理文字、圖片同影片，配備100萬token嘅上下文視窗。

定價方面，佢嘅每個token成本大約只係阿里巴巴純文字模型Qwen 3.7 Max嘅六分之一，令佢成為市場上其中一個定價最進取嘅多模態代理。喺代理效能基準測試入面，Qwen 3.7 Plus喺Terminal-Bench 2.0嘅表現好過Claude Opus 4.6，而且仲有能力做到UI識別/自動化、由圖片生成程式碼，同埋視覺問答。

Anthropic Claude Code：/fork 指令

Claude Code係Anthropic嘅代理式編程工具，直接喺終端機入面運作，可以執行shell指令同修改開發人員電腦上面嘅檔案。

/fork 指令可以建立一個由現有會話「分支」出嚟嘅新會話，儲存喺 commands/branch/ 目錄之下，令開發人員可以探索唔同嘅方向，同時又唔會失去原先會話嘅脈絡。

Claude Code已經成為最廣泛採用嘅AI開發工具之一，其中一個npm套件嘅提及，喺單單一日之內就累積咗超過1,100顆星同1,900次分支。

疑團同未有答案嘅問題

原先提問入面有幾個項目，截至2026年6月初，都未有直接嘅資料來源確認：

GPT-5.6嘅定價同Token效率數據： 除咗「效率提升」呢種籠統講法之外，未有實質數據流出。話佢可以同Claude Mythos匹敵但成本更低，只係坊間猜測。
Google Notebook LM同Gemini Omni嘅整合： 有證據顯示Notebook LM有用到Gemini模型（包括喺一個診斷準確度研究入面用咗1.5 Pro），但係一個專門嘅「Gemini Omni」整合，作為2026年6月嘅產品發佈，就喺現有資料來源入面未能確認。
世界智能大會嘅人形機械人： 搜尋結果捕捉唔到關於喺呢個大會上，有展示具備動作捕捉同情感表達能力嘅超逼真人形機械人嘅可驗證證據。呢個仍然係一個需要針對特定活動地點同日期去做針對性搜尋嘅謎團。

呢個星期嘅啟示

2026年6月第一個星期嘅主旋律，係企業工具（Codex外掛程式同Sites）、自家模型家族（微軟嘅MAI陣容、阿里巴巴嘅Qwen）、開源代理成熟化（Hermes Desktop），仲有一個呼之欲出但尚未公開嘅下一代（GPT-5.6、Claude Mythos）。業界嘅步伐好快——但係已確認產品同未經證實傳聞之間嘅界線，往往比頭條新聞所暗示嘅清晰得多。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問