レポート公開済み2026年4月28日Last edited 2026年5月6日13 ソース

Kimi K2.6 vs DeepSeek V4: pilih model berdasarkan tugas, bukan sekadar skor umum

Untuk coding praktis seperti memperbaiki repositori dan membantu implementasi, Kimi K2.6 layak dicoba lebih dulu. Untuk dokumen sangat panjang, DeepSeek V4 punya pembeda paling jelas.

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

Kimi K2.6とDeepSeek V4のベンチマーク比較を表す抽象的なAI編集画像 — Kimi K2.6 vs DeepSeek V4：コーディング・デザイン・創作でどちらを選ぶべきかAI生成の編集用イメージ。Kimi K2.6とDeepSeek V4の用途別比較を表現しています。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: Kimi K2.6 vs DeepSeek V4：コーディング・デザイン・創作でどちらを選ぶべきか. Article summary: 実務コーディングではKimi K2.6を先に試すのが無難です。AkitaOnRailsの実装系ベンチではKimi K2.6が87点、DeepSeek V4 Flashが78点、DeepSeek V4 Proが69点でしたが、長文処理や競技プログラミングではDeepSeek V4も有力です[8]。. Topic tags: ai, llm, ai benchmarks, kimi, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6vs DeepSeek-V4 Pro. Get a detailed comparison of AI language modelsMoonshot AI's Kimi K2.6andDeepSeek's DeepSeek-V4 Pro, including model features, token pricing, API cos" source context "Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AI" Reference image 2: visual subject "# DeepSeek V4 Pro vs Kimi K2.6. DeepSeek V4 Pro (2026) and Kimi K2.6 (2026) are agentic coding models from DeepSeek and Moonshot AI. On pricing, Kimi K2.6 costs $0.74/1M input toke" source context "D
openai.com

Kimi K2.6 dan DeepSeek V4 sebaiknya tidak dipilih hanya dari peringkat total. Pertanyaan yang lebih berguna adalah: pekerjaan apa yang paling sering Anda jalankan?

Dari benchmark publik yang tersedia, Kimi K2.6 lebih masuk akal sebagai titik awal untuk coding praktis—misalnya memperbaiki repositori, membantu implementasi, atau menjalankan agen coding. DeepSeek V4 lebih menarik untuk konteks sangat panjang dan tetap layak diuji untuk soal algoritmik atau competitive programming^[8]^[2]^[14]^[20].

Ringkasan cepat: model mana yang dicoba dulu?

Kebutuhan	Coba lebih dulu	Alasannya
Coding praktis, perbaikan repositori, bantuan implementasi	Kimi K2.6	Di LLM Coding Benchmark AkitaOnRails, Kimi K2.6 meraih 87 poin Tier A, sedangkan DeepSeek V4 Flash 78 poin Tier B dan DeepSeek V4 Pro 69 poin Tier B^[8].
Competitive programming dan soal algoritma	Bandingkan juga DeepSeek V4 Pro Max	Model card DeepSeek menampilkan perbandingan yang mencakup K2.6 Thinking serta metrik seperti LiveCodeBench dan Codeforces^[20].
Codebase besar, spesifikasi panjang, log, atau review banyak dokumen	DeepSeek V4	Artificial Analysis mencatat DeepSeek V4 Flash/Pro memiliki context window 1000k token, sementara Kimi K2.6 256k token^[2]^[14].
UI, web, SVG, visualisasi data	Masukkan Kimi K2.6 sebagai kandidat kuat	OpenRouter dan LLM Stats menampilkan metrik Kimi K2.6 untuk Design Arena, web, SVG, dan data visualization^[3]^[7]. Namun itu belum cukup untuk menyatakan Kimi pasti unggul atas DeepSeek V4 di kondisi yang sama.
Copywriting, artikel, skenario, gaya brand	Jangan putuskan dari benchmark publik saja	Materi yang tersedia belum cukup untuk membandingkan Kimi K2.6 dan DeepSeek V4 secara langsung pada kualitas kreatif dan editorial.

Coding: untuk kerja software sehari-hari, Kimi lebih dulu

Kata “coding” bisa berarti banyak hal. Memperbaiki bug di repositori, membuat fitur, menjalankan test, memakai tool, menyelesaikan soal algoritma, dan membaca spesifikasi panjang sama-sama disebut coding, tetapi kemampuan yang diuji tidak selalu sama.

Untuk sudut pandang yang dekat dengan pekerjaan software engineering, benchmark AkitaOnRails cukup relevan. Dalam LLM Coding Benchmark tersebut, Kimi K2.6 mendapat 87 poin dan masuk Tier A. DeepSeek V4 Flash berada di 78 poin Tier B, sedangkan DeepSeek V4 Pro berada di 69 poin Tier B^[8]. Pada jenis evaluasi ini, ada alasan kuat untuk mencoba Kimi K2.6 lebih dulu.

Materi resmi Kimi juga menonjolkan arah yang sama. Kartu Kimi K2.6 di Hugging Face mencantumkan skor coding seperti SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, dan LiveCodeBench v6 89.6^[9]. Blog resmi Kimi memperkenalkan Kimi K2.6 sebagai model untuk mendorong “Open-Source Coding” dan memuat tabel evaluasi yang juga mencakup benchmark agentic^[5].

Namun, bukan berarti DeepSeek V4 harus dicoret dari daftar. Kartu DeepSeek V4 Pro di Hugging Face memasukkan K2.6 Thinking sebagai pembanding dan menampilkan metrik seperti LiveCodeBench serta Codeforces^[20]. Ada pula unggahan Reddit yang mengklaim DeepSeek V4 menjadi model open-weight nomor satu di Vibe Code Benchmark, dengan Kimi K2.6 di posisi kedua. Tetapi sumber itu adalah konten buatan pengguna, dan dalam materi yang tersedia tidak ada rincian metode penilaian atau skor lengkap yang bisa diverifikasi^[11].

Kesimpulan praktisnya: untuk software engineering, coding agent, dan perbaikan repositori, mulai dari Kimi K2.6. Untuk competitive programming atau soal algoritmik, uji juga DeepSeek V4 Pro Max dengan prompt dan batas waktu yang sama.

Konteks panjang: keunggulan DeepSeek V4 yang paling mudah terlihat

Pembeda paling jelas DeepSeek V4 adalah panjang konteks. Dalam perbandingan Artificial Analysis, DeepSeek V4 Flash dan DeepSeek V4 Pro sama-sama dicatat memiliki context window 1000k token, sedangkan Kimi K2.6 berada di 256k token^[2]^[14]. Secara sederhana, token adalah potongan teks yang diproses model; makin besar jendelanya, makin banyak materi yang bisa dimasukkan sekaligus.

Keunggulan ini penting untuk codebase besar, spesifikasi produk yang panjang, log sistem, dokumen hukum atau teknis, dan review lintas banyak file. AINews juga merangkum DeepSeek V4 Pro/Flash sebagai lini dua tingkat dengan konteks 1M token, mode hybrid reasoning/non-reasoning, lisensi MIT, dan technical report yang rinci^[18]. Laporan teknis DeepSeek V4 menyebut arsitektur hybrid attention yang mencakup Compressed Sparse Attention dan Heavily Compressed Attention untuk meningkatkan efisiensi konteks panjang^[15].

Tetap ada catatan penting: batas yang benar-benar bisa dipakai dapat berubah tergantung API, router, atau penyedia layanan. Di halaman perbandingan OpenRouter, misalnya, Max Tokens ditampilkan 256K, sehingga angka 1000k token dari Artificial Analysis belum tentu otomatis tersedia di semua jalur akses^[3]. Jika konteks panjang adalah alasan utama Anda memilih DeepSeek V4, verifikasi batas token di penyedia yang akan dipakai.

Desain dan front-end: Kimi menjanjikan, tetapi belum berarti menang mutlak

Untuk tugas desain yang dekat dengan UI, web, SVG, dan visualisasi data, bukti publik yang terlihat lebih banyak mengarah ke Kimi K2.6. OpenRouter menampilkan metrik Design Arena untuk Kimi K2.6, termasuk 3D, Data Visualization, Game Development, SVG, UI Component, dan Website^[3]. LLM Stats juga mencantumkan ranking Kimi K2.6 untuk Websites, 3D, Games, Animations, SVG, dan Data Viz^[7].

Selain itu, Artificial Analysis menyebut Kimi K2.6 mendukung input gambar dan video secara native dengan output teks, sementara panjang konteks maksimumnya tetap 256k^[22]. Untuk workflow seperti membaca screenshot, menilai UI, atau mengecek spesifikasi visual, kemampuan multimodal seperti ini bisa menjadi nilai tambah.

Namun, semua itu lebih tepat dibaca sebagai tanda bahwa Kimi K2.6 menjanjikan untuk pekerjaan desain, bukan bukti bahwa Kimi pasti lebih baik dari DeepSeek V4. Benchmark publik yang cukup kuat untuk membandingkan keduanya secara langsung pada UI generation, pembuatan website, SVG, visualisasi data, 3D, dan design review masih belum memadai.

Untuk kebutuhan desain, pendekatan paling aman adalah melakukan AB test dengan prompt Anda sendiri: guideline brand, batasan komponen, framework front-end yang dipakai, dan contoh output yang dianggap bagus oleh tim.

Konten kreatif: jangan memilih dari skor coding

Copy iklan, artikel, skenario, cerita, dan peniruan gaya brand sulit dinilai hanya dari benchmark matematika, reasoning, atau coding. Dalam materi yang tersedia, belum ada benchmark publik yang cukup kuat untuk membandingkan Kimi K2.6 dan DeepSeek V4 secara langsung pada kualitas kreatif dan editorial.

Untuk area ini, evaluasi internal biasanya lebih berguna:

Pakai brief yang sama, lalu nilai hasilnya tanpa melihat nama model.
Skor berdasarkan “siap pakai”, jumlah revisi, kesesuaian tone brand, kerapian struktur, dan kebaruan ide.
Pisahkan pengujian untuk copy pendek, artikel panjang, unggahan media sosial, email penjualan, dan format lain yang benar-benar dipakai.
Untuk konten faktual, nilai kemampuan memberi sumber dan tingkat kesalahan informasi secara terpisah.

Dengan kata lain, untuk konten kreatif, pemenangnya bukan model dengan skor benchmark tertinggi, melainkan model yang paling banyak mengurangi beban editor atau marketer.

Gambaran umum: Kimi tampak unggul secara agregat, DeepSeek punya niche kuat

Dalam kategori model open-weight, Kimi K2.6 diposisikan sangat kuat. Artificial Analysis menyebut Kimi K2.6 sebagai “new leading open weights model”^[22]. SCMP juga melaporkan, mengutip Artificial Analysis, bahwa DeepSeek V4 Pro berada di posisi kedua di antara model open-source utama, di belakang Kimi K2.6 dari Moonshot AI^[23].

Di sisi lain, DeepSeek V4 bukan rilis kecil. AINews menggambarkannya sebagai pembaruan arsitektur besar sejak V3, dengan peningkatan pada konteks panjang dan kemampuan agentic coding^[18]. Jadi, jika hanya melihat gambaran umum, Kimi K2.6 memang terlihat lebih unggul. Tetapi untuk konteks 1000k token dan sebagian tugas coding kompetitif, DeepSeek V4 tetap layak masuk shortlist^[2]^[14]^[20].

Cara memilih dalam praktik

Coding praktis, coding agent, perbaikan repositori: mulai dari Kimi K2.6. Dalam benchmark implementasi AkitaOnRails, Kimi K2.6 mengungguli DeepSeek V4 Flash dan Pro^[8].
Competitive programming dan soal algoritma: bandingkan DeepSeek V4 Pro Max juga. Model card DeepSeek menampilkan metrik seperti LiveCodeBench dan Codeforces^[20].
Spesifikasi besar, codebase panjang, banyak dokumen: prioritaskan DeepSeek V4. Perbandingan Artificial Analysis mencatat konteks 1000k token untuk DeepSeek V4 Flash/Pro^[2]^[14].
UI, web, SVG, visualisasi data: masukkan Kimi K2.6 sebagai kandidat kuat, tetapi tetap uji di tugas nyata karena perbandingan langsung dengan DeepSeek V4 masih terbatas^[3]^[7]^[22].
Copywriting, artikel, skenario, gaya brand: jangan tentukan pemenang dari benchmark publik. Lakukan blind AB test dengan materi produksi Anda sendiri.

Intinya, Kimi K2.6 lebih kuat sebagai pilihan awal untuk coding praktis dan penilaian open-weight secara umum, sementara DeepSeek V4 paling menarik untuk konteks panjang dan sebagian skenario competitive coding. Untuk desain dan konten kreatif, bukti publik saat ini belum cukup untuk menetapkan pemenang tunggal.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

Untuk coding praktis seperti memperbaiki repositori dan membantu implementasi, Kimi K2.6 layak dicoba lebih dulu.
Untuk dokumen sangat panjang, DeepSeek V4 punya pembeda paling jelas. Artificial Analysis mencatat DeepSeek V4 Flash/Pro memiliki context window 1000k token, dibanding 256k token pada Kimi K2.6[2][14].
Untuk desain dan konten kreatif, jangan langsung menetapkan pemenang. Kimi K2.6 punya metrik Design Arena dan dukungan input gambar/video, tetapi benchmark publik yang membandingkannya langsung dengan DeepSeek V4 masi...

人々も尋ねます

「Kimi K2.6 vs DeepSeek V4: pilih model berdasarkan tugas, bukan sekadar skor umum」の短い答えは何ですか?

Untuk coding praktis seperti memperbaiki repositori dan membantu implementasi, Kimi K2.6 layak dicoba lebih dulu.

最初に検証する重要なポイントは何ですか?

Untuk coding praktis seperti memperbaiki repositori dan membantu implementasi, Kimi K2.6 layak dicoba lebih dulu. Untuk dokumen sangat panjang, DeepSeek V4 punya pembeda paling jelas. Artificial Analysis mencatat DeepSeek V4 Flash/Pro memiliki context window 1000k token, dibanding 256k token pada Kimi K2.6[2][14].

次の実践では何をすればいいでしょうか？

Untuk desain dan konten kreatif, jangan langsung menetapkan pemenang. Kimi K2.6 punya metrik Design Arena dan dukungan input gambar/video, tetapi benchmark publik yang membandingkannya langsung dengan DeepSeek V4 masi...

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月26日

リサーチクエスチョン

Kimi K2.6とDeepSeek V4のベンチマークを調査してください。コーディング、デザイン、クリエイティブコンテンツでは、どちらが優れているでしょうか？

Studio Global AI2026年4月26日26 ソース

引用された回答

現時点の提示証拠だけで判断すると、コーディングはDeepSeek V4が優勢です。ただし、デザインとクリエイティブコンテンツについては、比較可能な専用ベンチマークが提示証拠内にないため、結論は「Insufficient evidence」です。

Key findings

コーディング: DeepSeek V4が有利です。提示証拠では、DeepSeek V4が「Vibe Code Benchmark」でオープンウェイトモデル1位、Kimi K2.6が2位とされ、さらにDeepSeek V4がKimi K2.6を大きく上回るという主張があります^[23]。ただし、この根拠はReddit投稿のスニペットであり、一次ベンチマークページや詳細スコアではないため、信頼度は限定的です^[23]。
デザイン: Insufficient evidence. 提示証拠には、UI/UXデザイン、画像理解を伴うデザインレビュー、フロントエンド実装品質、ビジュアル生成支援などを直接比較するベンチマークがありません。
クリエイティブコンテンツ: Insufficient evidence. 提示証拠には、文章創作、広告コピー、長編構成、ブランドトーン再現などの品質をKimi K2.6とDeepSeek V4で直接比較する評価がありません。
長文処理・大規模コンテキスト: DeepSeek V4は長い仕様書、コードベース、ドキュメントを扱う用途で有利な可能性があります。Artificial Analysisの比較スニペットではDeepSeek V4 Pro/Flashが1000kトークン、Kimi K2.6が256kトークンのコンテキストウィンドウとされています^[4]^[5]。AINewsのスニペットでもDeepSeek V4系は1Mトークンコンテキストを備えるとされています^[1]。
総合的な「オープンモデル」評価: Kimi K2.6については、AINewsが「world's leading Open Model」と表現し、Moonshotが2026年時点で中国のオープンモデルラボとしてリードしているという評価を掲載しています^[2]。一方で、DeepSeek V4についても、AINewsはV3以来の大きなアーキテクチャ刷新であり、1Mトークンコンテキスト、推論/非推論のハイブリッドモード、MITライセンス、詳細な技術レポートを持つとしています^[1]。

Evidence notes

DeepSeek V4のコーディング優位を示す最も直接的な証拠は「Vibe Code Benchmark」の順位主張ですが、提示証拠ではRedditスニペットに限られます^[23]。そのため、コーディングについては「DeepSeek V4が優勢」と見ますが、確度は中程度です。
コンテキスト長については、Artificial Analysisの比較スニペットがDeepSeek V4 Pro/Flashを1000kトークン、Kimi K2.6を256kトークンとしています^[4]^[5]。ただし、OpenRouterの比較スニペットでは「Max Tokens 256K」とも記載されており、プラットフォーム上の提供条件やモデル設定による差がある可能性があります^[7]。
Kimi K2.6は全体評価として高く扱われていますが、提示証拠内ではコーディング、デザイン、クリエイティブそれぞれの専用スコアが確認できません^[2]。

Limitations / uncertainty

デザインとクリエイティブコンテンツについては、提示証拠だけでは優劣を判定できません。Insufficient evidence.
コーディングの結論は、単一のベンチマーク主張に強く依存しています^[23]。一次ソースの詳細スコア、評価プロンプト、採点方法、再現性が提示証拠内にないため、断定は避けるべきです。
DeepSeek V4にはPro、Flash、Reasoning、High/Max Effortなど複数設定があり、Kimi K2.6との比較結果はモデル設定や提供プラットフォームによって変わる可能性があります^[4]^[5]^[7]。

Summary

コーディング: DeepSeek V4が優勢。ただし根拠は限定的です^[23]。
デザイン: Insufficient evidence.
クリエイティブコンテンツ: Insufficient evidence.
長文・大規模文脈処理: DeepSeek V4が有利な可能性が高いです。提示証拠ではDeepSeek V4が1Mトークン、Kimi K2.6が256kトークンとされています^[4]^[5]。
実務上の選び方: コード生成・大規模コードベース解析ならDeepSeek V4を第一候補にし、文章表現や創作系はKimi K2.6も含めて実タスクでABテストするのが妥当です。

情報源

[2] DeepSeek V4 Flash (Reasoning, Max Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Flash (Reasoning, Max Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Flash (R...
[3] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai
Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...
[5] Kimi K2.6 Tech Blog: Advancing Open-Source Codingkimi.com
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full w/ tools 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (agent swarm) 86.3 — — — 78.4 DeepSearchQ...
[7] Kimi K2.6: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Latency 137.00 s Throughput 27 c/s Parameters 1.0T Benchmarks Examples Playground API Benchmarks Arena Performance 65 Websites 33 3D 50 Games 42 Animations 17 SVG 46 Data Viz 14 Audio Leaderboard Rankings 3 Reasoning 3 Search 4 Coding 5 Vision 6 Math 7 Tool...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[11] "DeepSeek v4 is now the #1 open-weight model on our Vibe Code Benchmark, and it’s not close. It leaves the #2 (Kimi K2.6) in the dust, and even beats out frontier closed source models like Gemini 3.1 Pro." : r/acceleratereddit.com
Ethical considerations in AI development Latest breakthroughs in machine learning Impact of AI on job markets Public Anyone can view, post, and comment to this community 0 0 Reddit RulesPrivacy PolicyUser AgreementYour Privacy ChoicesAccessibilityReddit, In...
[14] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[15] DeepSeek_V4.pdfhuggingface.co
Overall, DeepSeek-V4 series retain the Transformer (Vaswani et al., 2017) architecture and Multi-Token Prediction (MTP) modules (DeepSeek-AI, 2024; Gloeckle et al., 2024), while introducing several key upgrades over DeepSeek-V3: (1) firstly, we introduce th...
[18] [AINews] DeepSeek V4 Pro (1.6T-A49B) and Flash (284B-A13B ...latent.space
DeepSeek released DeepSeek-V4 Pro and DeepSeek-V4 Flash, its first major architecture refresh since V3 and first clear two-tier lineup, with 1M-token context, hybrid reasoning/non-reasoning modes, an MIT license, and a technical report detailed enough that...
[20] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[22] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[23] Underwhelming or underrated? DeepSeek V4 shows “impressive ...scmp.com
The company’s most advanced system, V4 Pro, ranked second among the world’s leading open-source models, behind Beijing-based Moonshot AI’s Kimi K2.6, benchmark firm Artificial Analysis said in a report on Friday. While V4 Pro marked a clear improvement on i...

トレンドを発見する