JawabanDipublikasikan2 minggu yang laluLast edited 2 minggu yang lalu32 sumber

GLM-5.2: Model Open-Weight China yang Kalahkan GPT-5.5 dengan Biaya Seperenam

GLM 5.2 adalah model Mixture of Experts berparameter 753B yang menyalip GPT 5.5 di SWE bench Pro (62,1 vs 58,6) dan AIME 2026 (99,2 vs 98,1), serta mempersempit jarak dengan Claude Opus 4.8 hingga di bawah satu poin p... Model ini open weight penuh berlisensi MIT, biayanya sekitar $4,40 per satu juta token keluaran—...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

210K0

Abstract visualization of Z.ai's GLM-5.2 model benchmarks and competitive performance data against GPT-5.5 and Claude Opus 4.8. — What are the key details and competitive benchmarks for Z.ai's open-weights GLM-5.2 model released on June 16, 2026, including its parameterGLM-5.2 enters the frontier conversation by beating GPT-5.5 on multiple coding benchmarks and closing to within 0.7 points of Claude Opus 4.8 on long-horizon tasks.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What are the key details and competitive benchmarks for Z.ai's open-weights GLM-5.2 model released on June 16, 2026, including its parameter. Article summary: ## GLM-5.2: Key Details & Competitive Positioning. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Z.ai releases GLM 5.2 model: Long Horizon tasks and open weights : r/singularity. Open menu Open navigationGo to Reddit Home. Sign UpSign up for RedditLog InLog in to Reddit. Ima" source context "Z.ai releases GLM 5.2 model: Long Horizon tasks and open weights" Reference image 2: visual subject "# Z.ai releases GLM 5.2 model: Long Horizon tasks and open weights : r/singularity. Open menu Open navigationGo to Reddit Home. Sign UpSign up for RedditLog InLog in to Reddit. Ima" sour
openai.com

Pada 16 Juni 2026, laboratorium AI asal Tiongkok, Z.ai (sebelumnya Zhipu AI), merilis GLM-5.2, sebuah model bahasa besar (LLM) open-weight yang mengubah lanskap AI kelas atas. Model ini langsung menonjol karena satu alasan: ia mengalahkan GPT-5.5 milik OpenAI di beberapa benchmark pengkodean dan matematika inti, dengan biaya kira-kira seperenam kali lipat, dan dirilis di bawah lisensi MIT yang permisif . Yang tak kalah penting, model ini mempersempit jarak dengan pemimpin pasar saat ini dari Anthropic, Claude Opus 4.8, menjadi sekitar satu poin persentase pada tugas-tugas agen berjangka panjang yang kritis .

Tinjauan Arsitektur dan Spesifikasi Utama

GLM-5.2 dibangun di atas arsitektur Mixture-of-Experts (MoE), pilihan desain yang menyeimbangkan kemampuan mentah dengan efisiensi inferensi. Spesifikasi resmi mengonfirmasi total sekitar 753 miliar parameter, di mana hanya sekitar 40 miliar yang aktif per token . Aktivasi renggang inilah yang membuat keekonomisan model ini bekerja.

Sekilas spesifikasi inti:

Parameter: ~753B total, ~40B aktif per token
Jendela Konteks: 1.048.576 token (konteks 1 juta yang benar-benar bisa digunakan)
Maksimum Token Keluaran: 128K–131K (sumber melaporkan sedikit variasi)
Lisensi: MIT, mengizinkan penggunaan komersial dan penelitian tanpa batasan
Mode Penalaran: "High" (efisien) dan "Max" (upaya penalaran maksimum) untuk menyeimbangkan kecepatan dan kedalaman

Inovasi arsitektur kuncinya adalah mekanisme “IndexShare”. Untuk membuat jendela konteks 1 juta token yang masif layak secara ekonomi, Z.ai menggunakan kembali pengindeks ringan di setiap empat lapisan atensi renggang. Menurut uraian teknis, trik ini mengurangi komputasi per token sekitar 2,9 kali lipat pada panjang konteks 1 juta penuh, mencegah degradasi performa yang sering menjangkiti model berkonteks panjang .

Performa Benchmark: Berduel di Garis Depan

Z.ai memosisikan GLM-5.2 secara langsung melawan GPT-5.5 dan Claude Opus 4.8. Skor dalam tabel di bawah ini dilaporkan sendiri oleh Z.ai, termasuk angka yang dikutip untuk para pesaingnya. Skor ini mewakili pengukuran satu vendor dan belum direproduksi secara independen oleh laboratorium pesaing .

Benchmark	GLM-5.2	GPT-5.5	Claude Opus 4.8
SWE-bench Pro (perbaikan bug dunia nyata)	62,1	58,6	69,2
Terminal-Bench 2.1 (tugas agen terminal multi-langkah)	81,0	84,0	85,0
AIME 2026 (matematika tingkat olimpiade)	99,2	98,1	~98,0–98,9
FrontierSWE (proyek rekayasa kompleks 20 jam)	74,4	72,6	75,1
MCP-Atlas (penggunaan alat agen via server MCP)	77,0	75,3	77,8

Poin Penting dari Angka-Angka Tersebut

GLM-5.2 memimpin atas GPT-5.5 pada berbagai evaluasi pengkodean dan penalaran. Pada SWE-bench Pro, ia mencetak 62,1 versus 58,6 milik GPT-5.5 . Pada FrontierSWE, benchmark 20 jam yang menuntut untuk rekayasa otonom, ia mencatat 74,4 berbanding 72,6 milik GPT-5.5 . Dalam matematika, ia mencapai skor nyaris sempurna 99,2 pada AIME 2026, mengungguli kedua pesaing asal AS-nya .

Jarak dengan Claude Opus 4.8 telah menyempit secara dramatis dalam pengkodean agentik. Meskipun Opus 4.8 masih memimpin telak di beberapa benchmark—terutama SWE-bench Pro dengan skor 69,2 versus 62,1 milik GLM-5.2 —hasil pada tugas-tugas agen berjangka panjang jauh lebih ketat. Pada FrontierSWE, GLM-5.2 hanya terpaut 0,7 poin di belakang Opus 4.8 (74,4 vs 75,1) . Pada MCP-Atlas, ia tertinggal hanya 0,8 poin (77,0 vs 77,8) .

Lompatan generasi dari GLM-5.1 sangatlah besar. Peningkatan paling dramatis ada pada Terminal-Bench 2.1, di mana skor GLM-5.2 sebesar 81,0 mewakili lonjakan 19 poin dari skor generasi sebelumnya yang 62,0 . Ini menjadikan GLM-5.2 model open-weight pertama yang menembus batas 80% pada benchmark ini .

Penting untuk dicatat di mana GLM-5.2 masih tertinggal. Pada tugas-tugas terberat dan berjangka terlama seperti SWE-Marathon (rekayasa ultra-panjang), Opus 4.8 memimpin 26,0% berbanding 13,0%—sebuah jarak signifikan yang menunjukkan bahwa model-model frontier AS masih unggul dalam keandalan pada pekerjaan agen yang sangat panjang .

Harga dan Ketersediaan: Keekonomisan Akses Terbuka

Kisah kompetitif GLM-5.2 tidak hanya soal performa, tetapi juga harga.

Harga API: Dapat diakses melalui GLM Coding Plan Z.ai (tingkat Lite, Pro, Max, dan Team), model ini berbiaya sekitar $4,40 per satu juta token keluaran . Jika dibandingkan dengan harga yang dipublikasikan GPT-5.5, ini berarti pengurangan biaya operasional sekitar 83% .
Open Weights di Hugging Face: Bobot penuh tersedia untuk diunduh di zai-org/GLM-5.2 di bawah lisensi MIT, termasuk versi FP8 terkuantisasi untuk penyebaran lokal yang lebih mudah diakses . Platform ModelScope juga menyediakan salinan bobotnya untuk pengguna di Tiongkok .
Ekosistem Pihak Ketiga: Di luar infrastruktur Z.ai sendiri, model ini tersedia melalui Cloudflare Workers AI dan didukung di lebih dari 20 lingkungan pengkodean dan layanan hosting pihak ketiga, seperti Modular Cloud dan Featherless.ai, yang menawarkan harga tetap untuk penyajian konteks panjang .

Kombinasi lisensi MIT yang permisif dan model penyebaran yang agnostik terhadap infrastruktur ini memungkinkan para pengembang untuk melakukan hosting sendiri pada model, mengintegrasikannya ke dalam alur kerja CI/CD, dan menghindari ketergantungan pada vendor—sebuah kontras yang tajam dengan akses model tertutup dan khusus API dari para pesaing utamanya.

Konteks Strategis: Open Weights dan Dinamika AI AS-Tiongkok

Waktu perilisan GLM-5.2 bersifat simbolis sekaligus teknis. Model ini mendarat di minggu yang sama ketika pemerintah AS meningkatkan pembatasan terhadap Claude Fable 5 milik Anthropic, sebuah langkah yang kabarnya dipengaruhi oleh percakapan antara CEO Amazon dan pejabat Gedung Putih . Kontrasnya disengaja dan mencolok: sebuah model frontier Tiongkok yang sepenuhnya terbuka muncul tepat saat AS memperketat kendali pada laboratorium terkemuka Amerika.

Pendiri Z.ai secara eksplisit mempromosikan rilis berlisensi MIT ini dengan slogan, “Kecerdasan Frontier Milik Semua Orang” (Frontier Intelligence Belongs to Everyone) , membingkai GLM-5.2 sebagai rilis teknis sekaligus pernyataan politis dalam persaingan teknologi AS-Tiongkok yang meningkat.

GLM-5.2 tidak muncul di ruang hampa. Ini adalah yang terbaru dari serangkaian model open-weight yang semakin mumpuni dari laboratorium Tiongkok—daftar yang mencakup DeepSeek, Qwen milik Alibaba, dan ERNIE milik Baidu—yang secara sistematis menekan kesenjangan performa dengan model AS berpemilik sambil menawarkan akses tak terbatas dengan harga yang jauh lebih murah .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "GLM-5.2: Model Open-Weight China yang Kalahkan GPT-5.5 dengan Biaya Seperenam"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Skor benchmark sebagian besar dilaporkan sendiri oleh Z.ai dan belum diverifikasi secara independen oleh laboratorium pesaing; meskipun menjanjikan, perbandingan performa langsung perlu disikapi hati hati.

Sumber

Comments

0 comments

Loading comments...

← Back to Trending