坊間估計,可能嘅發佈窗口係2026年6月15日到7月5日之間,但呢個時間表純粹係根據見到後台紀錄嘅時間推算出嚟,絕對無官方認證 。關於呢個假設性嘅GPT-5.6,暫時無任何具體嘅定價、Token效率數據,或者已確認嘅多模態功能流出;外界期望佢會有更好嘅成本效益同文字加圖片生成能力,呢啲都係根據5.x系列嘅發展軌跡推斷出嚟,而唔係有文件證明嘅規格
。
「Mythos基準」呢個詞出現喺幾個唔同嘅情境入面,好容易令人混淆:
Anthropic嘅Claude Mythos模型洩露事件(2026年3月26日): 因為Anthropic嘅內容管理系統設定出錯,意外咁將大約3,000份內部文件曝咗光,當中包括一篇關於下一代模型嘅草擬文章,內部代號係「水豚」(Capybara),正式名叫Claude Mythos 。洩露出嚟嘅內部基準測試顯示,Mythos喺SWE-bench Verified攞到93.9%,喺SWE-bench Pro攞到77.8%,喺當時領先晒所有主要嘅編程基準測試
。到咗2026年4月7日,Anthropic正式公佈咗Claude Mythos Preview——但同時宣布公眾「無得用」呢個模型
。呢個模型仲被指有超強嘅網絡安全能力,包括喺OpenBSD入面搵到一個潛伏咗27年嘅漏洞
。
卡內基梅隆大學嘅安全基準測試(2026年5月): CMU嘅研究人員整咗另一個獨立嘅評估,測試AI模型能唔能夠自主開發針對Google V8引擎嘅真實瀏覽器漏洞。結果,Claude Mythos同GPT-5.5都證實有能力喺無任何人類介入嘅情況下,發現同利用真正嘅安全漏洞,而Mythos嘅表現明顯好過GPT-5.5,但營運成本就貴大約十二倍 。
SecureAI嘅Mythos漏洞基準測試(2026年1月): 呢個係一個專注網絡安全嘅基準測試套件,涵蓋2023至2026年嘅CVE漏洞,目的係評估AI漏洞偵測器,用咗Llama-3.1-405B呢類大型模型做基線 。
當有人提起「Mythos基準洩露」,佢哋通常係指Anthropic模型嗰次事件。CMU同SecureAI嘅基準測試係獨立嘅項目,只係咁啱都同「Mythos」呢個名扯上關係。
2026年6月2日,OpenAI喺佢嘅「Intelligence at Work」活動入面,宣布將Codex由一個以開發人員為主嘅編程代理,結構性咁擴展成一個更廣泛嘅企業工作平台 。呢次公佈有三個已確認嘅重點:
OpenAI亦確認咗,Codex嘅每星期活躍用戶已經超過500萬 。今次嘅擴展係一個清晰嘅戰略舉動,目標係要贏得企業入面嗰班唔識寫Code嘅知識型員工。多份獨立分析都指出,呢個方向直接同其他之前幾乎只專注喺工程團隊嘅工具打對台
。
焦點所在係 MAI-Thinking-1,係微軟第一個推理模型:
其餘六個模型就組成咗一個多模態生態系統:
硬件方面嘅公佈包括 Surface RTX Spark Dev Box,一部專為AI開發而設嘅小型電腦,可以提供高達1 petaflop嘅AI運算能力同128 GB統一記憶體,足夠喺本地運行高達1200億參數嘅模型 。微軟仲推出咗 Majorana 2 量子晶片,顯示佢哋喺硬件方面嘅野心已經超越咗傳統嘅AI運算
。
「Vibe Coding」( vibe編程)—— 即係透過對話式指令而唔係親手寫Syntax去生成整個應用程式嘅做法 —— 帶動咗新一代基準測試嘅出現,呢啲測試唔再係評估單一編程任務,而係嘗試去量度「全棧能力」。
呢三個平台有個共同目標,就係將AI編程嘅評估,由SWE-bench呢類合格率測試,推向更全面嘅可用性、速度、成本同安全性嘅評分標準。
2026年6月2日,Nous Research以公開預覽形式發佈咗 Hermes Desktop,捆綁咗Hermes Agent v0.15.2,用MIT授權條款發佈,支援macOS 12+、Windows 10/11同Linux 。
Hermes之前只能夠透過命令行介面(CLI)或者即時通訊網關嚟使用。呢個桌面應用程式係一個原生圖形前端,佢同CLI共享同一個代理核心、API密鑰、會話、技能同記憶,所以佢只係另一個操作介面,而唔係一個分支 。
Nous Research將Hermes形容為一個「會自我進化嘅代理,而唔係編程副駕駛」。個代理由推出到而家,大約三個月左右,喺GitHub上面已經攞到大約18萬顆星,係成個AI開源生態系統入面,增長速度最快嘅代理項目之一
。
定價方面,佢嘅每個token成本大約只係阿里巴巴純文字模型Qwen 3.7 Max嘅六分之一,令佢成為市場上其中一個定價最進取嘅多模態代理 。喺代理效能基準測試入面,Qwen 3.7 Plus喺Terminal-Bench 2.0嘅表現好過Claude Opus 4.6,而且仲有能力做到UI識別/自動化、由圖片生成程式碼,同埋視覺問答
。
Claude Code係Anthropic嘅代理式編程工具,直接喺終端機入面運作,可以執行shell指令同修改開發人員電腦上面嘅檔案。
原先提問入面有幾個項目,截至2026年6月初,都未有直接嘅資料來源確認:
2026年6月第一個星期嘅主旋律,係企業工具(Codex外掛程式同Sites)、自家模型家族(微軟嘅MAI陣容、阿里巴巴嘅Qwen)、開源代理成熟化(Hermes Desktop),仲有一個呼之欲出但尚未公開嘅下一代(GPT-5.6、Claude Mythos)。業界嘅步伐好快——但係已確認產品同未經證實傳聞之間嘅界線,往往比頭條新聞所暗示嘅清晰得多。
Comments
0 comments