Estimasi komunitas menempatkan kemungkinan jendela rilis antara 15 Juni hingga 5 Juli 2026, tetapi garis waktu itu murni ekstrapolasi dari penampakan log dan tidak memiliki dukungan resmi . Belum ada harga konkret, angka efisiensi token, atau kemampuan multimodal yang dikonfirmasi untuk GPT‑5.6 hipotetis ini; ekspektasi akan peningkatan efektivitas biaya dan pembuatan teks-plus-gambar adalah kesimpulan yang ditarik dari trajektori keluarga 5.x, bukan spesifikasi yang terdokumentasi
.
Intinya: GPT‑5.6 adalah bocoran yang kredibel, bukan sebuah produk. Industri sedang mengamati perilaku backend, tetapi belum ada tanggal peluncuran atau lembar spesifikasi teknis yang diterbitkan oleh OpenAI .
Istilah "Mythos Benchmark" muncul dalam beberapa konteks yang berbeda, yang dapat menciptakan kebingungan:
Kebocoran model Claude Mythos Anthropic (26 Maret 2026): Sebuah kesalahan konfigurasi di sistem manajemen konten Anthropic secara tidak sengaja mengekspos sekitar 3.000 dokumen internal, termasuk draf postingan tentang model generasi berikutnya dengan nama kode "Capybara" dan nama resmi Claude Mythos . Tolok ukur internal yang bocor menunjukkan Mythos mencapai 93,9% pada SWE‑bench Verified dan 77,8% pada SWE‑bench Pro, memimpin setiap tolok ukur pengodean utama pada saat itu
. Pada 7 April 2026, Anthropic secara resmi mengumumkan Claude Mythos Preview—tetapi secara bersamaan menyatakan bahwa publik tidak dapat menggunakannya
. Model ini juga ditandai karena kemampuan keamanan sibernya yang luar biasa, termasuk menemukan bug berusia 27 tahun di OpenBSD
.
Tolok ukur keamanan Carnegie Mellon University (Mei 2026): Para peneliti CMU membuat evaluasi terpisah yang menguji apakah model AI dapat secara mandiri mengembangkan eksploitasi peramban nyata yang menargetkan mesin V8 Google. Claude Mythos dan GPT‑5.5 terbukti mampu menemukan dan mempersenjatai celah keamanan asli tanpa campur tangan manusia, dengan Mythos mengungguli GPT‑5.5 secara signifikan namun dengan biaya operasional sekitar dua belas kali lebih mahal .
Tolok ukur kerentanan Mythos oleh SecureAI (Januari 2026): Sebuah rangkaian tolok ukur yang berfokus pada keamanan siber yang mencakup CVE dari 2023–2026, dirancang untuk mengevaluasi detektor kerentanan AI, yang menggunakan model besar seperti Llama‑3.1‑405B sebagai baseline .
Ketika seseorang menyebut "kebocoran Mythos Benchmark," mereka biasanya merujuk pada kebocoran model Anthropic. Tolok ukur CMU dan SecureAI adalah upaya terpisah yang kebetulan memiliki label "Mythos" yang sama.
Pada 2 Juni 2026, di acara "Intelligence at Work", OpenAI mengumumkan ekspansi struktural Codex dari agen koding yang berfokus pada pengembang menjadi platform kerja perusahaan yang lebih luas . Tiga pilar yang dikonfirmasi dari pengumuman ini adalah:
OpenAI juga mengonfirmasi bahwa Codex telah melampaui 5 juta pengguna aktif mingguan . Ekspansi ini mewakili langkah strategis yang jelas untuk menangkap pekerja pengetahuan non-pengembang di dalam perusahaan, sebuah arah yang telah diidentifikasi oleh berbagai analisis independen sebagai poros kompetitif langsung terhadap alat-alat yang sebelumnya berfokus hampir secara eksklusif pada tim teknik
.
Pada konferensi Build tahunannya di San Francisco pada 2 Juni 2026, Microsoft memperkenalkan keluarga tujuh model AI internal di bawah merek terpadu MAI (Microsoft AI), bersama dengan perangkat keras baru .
Inti dari pengumuman ini adalah MAI‑Thinking‑1, model penalaran pertama perusahaan:
Enam model lainnya melengkapi ekosistem multimodal:
Pengumuman perangkat keras termasuk Surface RTX Spark Dev Box, mesin pengembangan AI kompak yang mampu mencapai satu petaflop komputasi AI dengan memori terpadu 128 GB, yang dirancang untuk menjalankan model hingga 120 miliar parameter secara lokal . Microsoft juga memperkenalkan chip kuantum Majorana 2, menandakan akselerasi ambisi perangkat kerasnya di luar komputasi AI klasik
.
Keluarga tujuh model MAI secara luas ditafsirkan sebagai langkah untuk mengurangi ketergantungan pada model OpenAI sambil memberikan alternatif internal kepada pelanggan perusahaan yang disertai lisensi komersial yang bersih .
"Vibe coding"—praktik menghasilkan seluruh aplikasi melalui prompt percakapan alih-alih menulis sintaks—telah melahirkan generasi baru tolok ukur yang berupaya mengukur kemampuan full-stack, bukan hanya tugas pengodean yang terisolasi:
Ketiga platform ini memiliki tujuan yang sama untuk memajukan evaluasi koding AI melampaui tolok ukur tingkat kelulusan seperti SWE‑bench dan menuju ukuran holistik dari kegunaan, kecepatan, biaya, dan keamanan.
Pada 2 Juni 2026, Nous Research merilis Hermes Desktop sebagai pratinjau publik, dibundel dengan Hermes Agent v0.15.2 dan diterbitkan di bawah lisensi MIT untuk macOS 12+, Windows 10/11, dan Linux .
Hermes sebelumnya hanya dapat diakses melalui antarmuka baris perintah atau gateway pesan. Aplikasi desktop ini adalah front-end grafis asli yang berbagi inti agen, kunci API, sesi, keterampilan, dan memori yang sama dengan CLI, jadi ini adalah permukaan alternatif, bukan fork .
Nous Research menggambarkan Hermes sebagai "agen yang dapat memperbaiki diri sendiri, bukan kopilot koding" . Agen ini telah tumbuh dari peluncuran hingga sekitar 180.000 bintang GitHub dalam waktu sekitar tiga bulan, menjadikannya salah satu proyek agen open-source dengan pertumbuhan tercepat di ekosistem
.
Alibaba meluncurkan Qwen 3.7 Plus sekitar 1–2 Juni 2026. Ini adalah model agen multimodal yang memproses teks, gambar, dan video melalui pelatihan fusi awal, dengan jendela konteks 1 juta token .
Harganya ditetapkan sekitar seperenam dari biaya per token Qwen 3.7 Max milik Alibaba yang hanya teks, yang menjadikannya salah satu agen multimodal dengan harga paling agresif di pasar . Pada tolok ukur kinerja agen, Qwen 3.7 Plus mengalahkan Claude Opus 4.6 pada Terminal‑Bench 2.0 dan mampu melakukan pengenalan/otomatisasi UI, pembuatan kode dari gambar, dan penjawaban pertanyaan visual
.
Claude Code adalah alat koding agentik dari Anthropic yang bekerja langsung di terminal, menjalankan perintah shell dan mengedit file di mesin pengembang. Perintah /fork membuat sesi baru yang bercabang dari sesi yang sudah ada, disimpan di bawah commands/branch/, memungkinkan alur kerja di mana pengembang dapat mengeksplorasi arah yang berbeda tanpa kehilangan konteks dari sesi asli .
Claude Code telah menjadi salah satu alat pengembang AI yang paling banyak diadopsi, dengan satu penyebutan paket npm mengumpulkan lebih dari 1.100 bintang dan 1.900 fork dalam satu hari .
Beberapa hal dalam penyelidikan awal tidak memiliki konfirmasi sumber langsung per awal Juni 2026:
Tema dominan dari pekan pertama Juni 2026 adalah perkakas perusahaan (plugin Codex dan Sites), keluarga model internal (jajaran MAI Microsoft, Qwen dari Alibaba), kematangan agen open-source (Hermes Desktop), dan generasi berikutnya yang akan datang namun belum publik (GPT‑5.6, Claude Mythos). Industri bergerak cepat—tetapi perbedaan antara produk yang dikonfirmasi dan rumor yang belum dikonfirmasi lebih tajam daripada yang sering disarankan oleh berita utama.
Comments
0 comments