Halaman model dan harga DeepSeek juga mencantumkan panjang output maksimum 384K untuk kedua model, serta dukungan Json Output dan Tool Calls. Jadi, titik berat V4 bukan semata-mata memperbesar parameter atau memperpanjang konteks. Yang lebih menarik adalah bagaimana DeepSeek mengemas pilihan “kemampuan maksimum” dan “efisiensi” menjadi produk yang langsung bisa dipanggil lewat API.
API易 dan HyperAI sama-sama menggambarkan V4-Pro dan V4-Flash sebagai model Mixture-of-Experts, atau MoE. Dalam pendekatan MoE, total parameter lebih mirip kapasitas seluruh kumpulan expert, sedangkan parameter aktif menunjukkan subset yang benar-benar ikut dihitung dalam satu proses inferensi. Ini menjelaskan mengapa spesifikasi V4 menonjolkan dua angka sekaligus: total parameters dan active parameters.
Manfaat desain seperti ini adalah kapasitas model tidak sepenuhnya terkunci pada biaya komputasi setiap permintaan. Namun, ada harga teknis yang harus dibayar: sisi server perlu menangani routing expert, expert parallelism, komunikasi antarkomponen, dan penyeimbangan beban. Setelah V4 dirilis, tim SGLang / Miles menyatakan telah menyediakan dukungan inferensi dan pelatihan RL, serta menyebut penyesuaian untuk hybrid sparse-attention, mHC, dan FP4 expert weights. Itu menunjukkan tantangannya tidak berhenti di model, tetapi meluas ke serving dan training stack.
Materi pengembang NVIDIA memosisikan V4-Pro dan V4-Flash sebagai model untuk inferensi konteks jutaan token yang efisien, dengan contoh penggunaan seperti coding konteks panjang, analisis dokumen, retrieval, dan workflow agentic AI. Dokumentasi API DeepSeek juga mencantumkan panjang konteks 1M untuk keduanya.
Bagi pengguna, nilai langsung dari konteks 1M token adalah berkurangnya kebutuhan memotong dokumen, menyambung ulang potongan konteks, atau bergantung terlalu banyak pada retrieval yang berisiko melewatkan bagian penting. Bagi penyedia layanan, konsekuensinya jauh lebih berat: komputasi attention, cache konteks, memori GPU, bandwidth, dan penjadwalan throughput ikut membesar. Karena itu, evaluasi V4 sebaiknya tidak hanya bertanya “bisa memuat 1M token atau tidak”, tetapi juga menguji latensi, biaya, kestabilan rujukan jarak jauh, dan performa Tool Calls dalam codebase, dokumen panjang, RAG, serta rantai kerja agent yang benar-benar dipakai.
Untuk efisiensi konteks panjang, berbagai materi publik menggunakan istilah yang belum sepenuhnya seragam. API易 menyebut konteks 1M V4 didukung Hybrid Attention dan DSA sparse attention. Ringkasan HyperAI menulis bahwa hybrid attention menggabungkan Compressed Sparse Attention atau CSA dan Heavily Compressed Attention atau HCA, serta menyebut mHC.
Sementara itu, SGLang / Miles mengatakan stack open-source mereka disesuaikan untuk hybrid sparse-attention, mHC, dan FP4 expert weights.
Cara baca yang paling aman: ekosistem V4 memang mengarah pada kombinasi sparse/kompresi/hybrid attention plus optimasi stack layanan. Namun, nama modul, detail implementasi, dan besaran dampaknya sebaiknya tidak disimpulkan hanya dari ringkasan pihak kedua atau video. Untuk klaim teknis yang spesifik, rujukan terbaik tetap Model Card dan Technical Report yang tercantum di Transparency Center DeepSeek.
Changelog DeepSeek menyatakan API sudah mendukung V4-Pro dan V4-Flash melalui antarmuka OpenAI ChatCompletions dan antarmuka Anthropic. Untuk mengakses model baru, base_url tidak berubah; pengguna cukup mengganti parameter model menjadi deepseek-v4-pro atau deepseek-v4-flash. Dokumentasi panggilan pertama mencantumkan base URL format OpenAI sebagai
https://api.deepseek.com dan format Anthropic sebagai https://api.deepseek.com/anthropic.
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicNama model lama juga punya jadwal yang jelas. deepseek-chat dan deepseek-reasoner akan dihentikan pada 24 Juli 2026; selama masa transisi, keduanya masing-masing menunjuk ke mode non-thinking dan thinking dari deepseek-v4-flash. Untuk aplikasi yang sudah berjalan, langkah awalnya sederhana tetapi penting: ganti nama model, tentukan apakah Pro atau Flash yang paling sesuai, lalu lakukan regresi untuk konteks panjang, Tool Calls, panjang output, dan biaya.
Pertama, klaim keunggulan performa perlu dibaca dengan jarak. Halaman rilis resmi berbahasa Mandarin menyatakan V4-Pro unggul di ranah domestik dan open-source untuk kemampuan Agent, pengetahuan dunia, dan reasoning; API易 juga mencantumkan skor benchmark seperti SWE-Verified. Itu berguna sebagai klaim dari pihak rilis dan ekosistem, tetapi hasil di aplikasi nyata tetap bisa berbeda tergantung prompt, batas biaya, data, dan jenis tugas.
Kedua, detail mekanisme internal perlu dipisahkan berdasarkan level sumbernya. Istilah Hybrid Attention, DSA, CSA, HCA, mHC, dan FP4 expert weights sudah muncul di berbagai materi publik, tetapi sumber dan penamaannya tidak selalu sama. Di luar Technical Report resmi, kurang bijak memperlakukan setiap istilah sebagai fakta implementasi yang sudah sepenuhnya terverifikasi.
Ketiga, konteks 1M token tidak otomatis berarti semua permintaan full-window akan murah dan rendah latensi. Materi resmi dan ekosistem dapat mengonfirmasi arah spesifikasi dan ketersediaan API; performa layanan sebenarnya tetap bergantung pada panjang dokumen, cache hit, konkurensi, rantai Tool Calls, dan standar evaluasi yang Anda gunakan.
“Engineering gila” DeepSeek V4 ada pada kombinasinya: V4-Pro dengan 1,6T total / 49B parameter aktif, V4-Flash dengan 284B total / 13B parameter aktif, jendela konteks hingga 1M token, serta API kompatibel OpenAI/Anthropic dalam satu lini produk yang bisa langsung dipanggil.
Untuk pengembang, langkah paling masuk akal bukan sekadar mengulang klaim peluncuran. Jalankan pengujian end-to-end dengan dokumen panjang, codebase, pipeline RAG, dan workflow agent milik sendiri. Jika masih memakai nama model lama, jadwalkan migrasi sebelum 24 Juli 2026.
Comments
0 comments