Anggaran komuniti meletakkan tetingkap pelancaran yang mungkin antara 15 Jun dan 5 Julai 2026, tetapi garis masa itu adalah ekstrapolasi tulen daripada penampakan log dan tidak mempunyai sokongan rasmi . Tiada harga konkrit, nombor kecekapan token, atau keupayaan multimodal yang disahkan telah muncul untuk GPT‑5.6 hipotesis; jangkaan keberkesanan kos yang lebih baik dan penjanaan teks-serta-imej adalah inferens yang diambil daripada trajektori keluarga 5.x, bukan spesifikasi yang didokumenkan
.
Kesimpulan: GPT‑5.6 adalah kebocoran yang boleh dipercayai, bukan produk. Industri sedang memerhatikan tingkah laku bahagian belakang, tetapi tiada tarikh pelancaran atau helaian spesifikasi teknikal telah diterbitkan oleh OpenAI .
Frasa “Penanda Aras Mythos” muncul dalam beberapa konteks berbeza, yang boleh menimbulkan kekeliruan:
Kebocoran model Claude Mythos Anthropic (26 Mac 2026): Salah konfigurasi dalam sistem pengurusan kandungan Anthropic secara tidak sengaja mendedahkan kira-kira 3,000 dokumen dalaman, termasuk draf siaran tentang model generasi seterusnya dengan nama kod “Capybara” dan nama rasmi Claude Mythos . Penanda aras dalaman yang bocor menunjukkan Mythos mencapai 93.9% pada SWE‑bench Verified dan 77.8% pada SWE‑bench Pro, mendahului setiap penanda aras pengekodan utama pada masa itu
. Pada 7 April 2026, Anthropic secara rasmi mengumumkan Pratonton Claude Mythos — tetapi pada masa yang sama mengisytiharkan bahawa orang awam tidak boleh menggunakannya
. Model ini juga telah dibenderakan kerana keupayaan keselamatan siber yang luar biasa, termasuk menemui pepijat berusia 27 tahun dalam OpenBSD
.
Penanda aras keselamatan Universiti Carnegie Mellon (Mei 2026): Penyelidik CMU mencipta penilaian berasingan yang menguji sama ada model AI boleh membangunkan eksploitasi penyemak imbas sebenar secara autonomi yang menyasarkan enjin V8 Google. Kedua-dua Claude Mythos dan GPT‑5.5 terbukti mampu menemui dan menjadikan kelemahan keselamatan tulen sebagai senjata tanpa campur tangan manusia, dengan Mythos mengatasi GPT‑5.5 dengan margin yang ketara sambil menelan kos operasi kira-kira dua belas kali lebih tinggi .
Penanda aras kelemahan Mythos SecureAI (Januari 2026): Satu suite penanda aras berfokuskan keselamatan siber yang meliputi CVE dari 2023–2026, direka untuk menilai pengesan kelemahan AI, yang menggunakan model besar seperti Llama‑3.1‑405B sebagai garis asas .
Apabila seseorang menyebut “kebocoran Penanda Aras Mythos,” mereka biasanya merujuk kepada kebocoran model Anthropic. Penanda aras CMU dan SecureAI adalah usaha berasingan yang berkongsi label “Mythos” secara kebetulan sahaja.
Pada 2 Jun 2026, di acara “Intelligence at Work”, OpenAI mengumumkan pengembangan struktur Codex daripada ejen pengekodan berfokuskan pembangun kepada platform kerja perusahaan yang lebih luas . Tiga tunjang pengumuman yang disahkan adalah:
OpenAI juga mengesahkan bahawa Codex telah melepasi 5 juta pengguna aktif mingguan . Pengembangan ini mewakili langkah strategik yang jelas untuk menawan pekerja pengetahuan bukan pembangun di dalam perusahaan, hala tuju yang telah dikenal pasti oleh pelbagai analisis bebas sebagai paksi persaingan langsung terhadap alat yang sebelum ini memfokus hampir secara eksklusif kepada pasukan kejuruteraan
.
Pada persidangan Build tahunannya di San Francisco pada 2 Jun 2026, Microsoft memperkenalkan keluarga tujuh model AI dalaman di bawah jenama bersatu MAI (Microsoft AI), bersama perkakasan baharu .
Tumpuan utamanya ialah MAI‑Thinking‑1, model penaakulan pertama syarikat:
Enam model lain melengkapkan ekosistem multimodal:
Pengumuman perkakasan termasuk Surface RTX Spark Dev Box, mesin pembangunan AI kompak yang mampu mencapai sehingga satu petaflop pengkomputeran AI dengan 128 GB memori bersatu, direka untuk menjalankan model sehingga 120 bilion parameter secara setempat . Microsoft juga memperkenalkan cip kuantum Majorana 2, menandakan pecutan cita-cita perkakasannya di luar pengkomputeran AI klasik
.
Keluarga tujuh model MAI ditafsirkan secara meluas sebagai langkah untuk mengurangkan pergantungan pada model OpenAI sambil memberi pelanggan perusahaan alternatif dalaman yang disertakan dengan pelesenan komersial yang bersih .
“Pengekodan Vibe” — amalan menjana keseluruhan aplikasi melalui gesaan perbualan dan bukannya menulis sintaks — telah melahirkan generasi penanda aras baharu yang cuba mengukur keupayaan penuh dan bukannya tugasan pengekodan terpencil:
Ketiga-tiga platform ini berkongsi matlamat untuk menggerakkan penilaian pengekodan AI melepasi penanda aras kadar lulus seperti SWE‑bench dan ke arah ukuran holistik kebolehgunaan, kelajuan, kos dan keselamatan.
Pada 2 Jun 2026, Nous Research mengeluarkan Hermes Desktop sebagai pratonton awam, digabungkan dengan Hermes Agent v0.15.2 dan diterbitkan di bawah lesen MIT untuk macOS 12+, Windows 10/11, dan Linux .
Sebelum ini, Hermes hanya boleh diakses melalui antara muka baris perintah atau get laluan pemesejan. Aplikasi desktop ini adalah bahagian hadapan grafik asli yang berkongsi teras ejen, kunci API, sesi, kemahiran dan memori yang sama seperti CLI, jadi ia adalah permukaan alternatif dan bukannya cabang .
Nous Research menggambarkan Hermes sebagai “ejen peningkatan kendiri, bukan pembantu pengekodan” . Ejen ini telah berkembang daripada pelancaran kepada kira-kira 180,000 bintang GitHub dalam masa kira-kira tiga bulan, menjadikannya salah satu projek ejen sumber terbuka yang paling pesat berkembang dalam ekosistem
.
Alibaba melancarkan Qwen 3.7 Plus pada kira-kira 1–2 Jun 2026. Ia adalah model ejen multimodal yang memproses teks, imej dan video melalui latihan gabungan awal, dengan tetingkap konteks 1 juta token .
Harga ditetapkan pada kira-kira satu perenam kos per token Qwen 3.7 Max khusus teks Alibaba, yang menjadikannya salah satu ejen multimodal dengan harga paling agresif di pasaran . Pada penanda aras prestasi ejen, Qwen 3.7 Plus mengalahkan Claude Opus 4.6 pada Terminal‑Bench 2.0 dan mampu melakukan pengecaman/automasi UI, penjanaan kod daripada imej, dan penjawaban soalan visual
.
Claude Code ialah alat pengekodan agentik Anthropic yang berfungsi secara langsung dalam terminal, menjalankan perintah shell dan mengedit fail pada mesin pembangun. Perintah /fork mencipta sesi baharu yang bercabang daripada yang sedia ada, disimpan di bawah commands/branch/, membolehkan aliran kerja di mana pembangun boleh meneroka arah yang berbeza tanpa kehilangan konteks daripada sesi asal .
Claude Code telah menjadi salah satu alat pembangun AI yang paling banyak diguna pakai, dengan satu sebutan pakej npm mengumpul lebih 1,100 bintang dan 1,900 cabang dalam satu hari .
Beberapa perkara dalam siasatan asal tidak mempunyai pengesahan sumber langsung setakat awal Jun 2026:
Tema dominan minggu pertama Jun 2026 adalah perkakasan perusahaan (plugin dan Sites Codex), keluarga model dalaman (barisan MAI Microsoft, Qwen Alibaba), kematangan ejen sumber terbuka (Hermes Desktop), dan generasi akan datang yang bakal muncul tetapi belum awam (GPT‑5.6, Claude Mythos). Industri bergerak pantas — tetapi perbezaan antara produk yang disahkan dan khabar angin yang tidak disahkan adalah lebih ketara daripada yang sering dicadangkan oleh tajuk berita.
Comments
0 comments