答案已發布2026年4月29日Last edited 2026年5月6日10 個來源

Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC. Untuk mesin lokal, bukti masih kurang: sumber yang tersedia belum menetapkan GPU minimum, VRAM, RAM, disk, GGUF resmi, atau dukunga...

使用 Studio Global AI 搜尋並查證事實探索更多內容

17K0

資料中心 GPU 伺服器與本地工作站並列的 Kimi K2.6 自部署概念圖 — Kimi K2.6 自部署查核：私有雲可先 POC，本地端還不能保證Kimi K2.6 自部署目前較適合先在私有雲或自管 GPU 環境做 POC；一般本地端仍需等待更明確的 K2.6 專屬硬體與 runtime 支援。
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: Kimi K2.6 自部署查核：私有雲可先 POC，本地端還不能保證. Article summary: Kimi K2.6 已有 Hugging Face 部署文件與模型頁部署區塊，足以支持私有雲或自管 GPU 先做 POC；但目前來源未明確列出最低 GPU、VRAM、RAM、官方 GGUF 或 llama.cpp 支援，因此不能把它當成一般本機可順跑的模型。. Topic tags: ai, open source ai, kimi, moonshot ai, llm. Reference image context from search candidates: Reference image 1: visual subject "# 详细介绍：本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）. Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大 128K 上下文，激活参数规模为 32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以" source context "详细介绍：本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法） - yjbjingcha - 博客园" Reference image 2: visual subject "# 详细介绍：本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）. Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大 128K 上下文，激活参数规模为 32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以" source context "详细介绍：本
openai.com

Jawaban singkatnya: Kimi K2.6 sudah punya pintu masuk untuk deployment mandiri, tetapi belum cukup bukti untuk menganggapnya siap jalan di PC biasa. Repositori Hugging Face moonshotai/Kimi-K2.6 memiliki file docs/deploy_guidance.md, dan halaman modelnya memuat bagian Deployment serta


Model Usage

; itu cukup untuk memulai uji konsep atau proof of concept, POC, di cloud privat atau server GPU yang dikelola sendiri.^[1]^[6]

Bagian yang perlu lebih hati-hati adalah deployment lokal. Dalam artikel ini, lokal berarti laptop, desktop, atau workstation tunggal. Sumber yang tersedia belum secara jelas memberikan jumlah GPU minimum, VRAM, RAM sistem, kapasitas disk, GGUF resmi, atau dukungan khusus llama.cpp untuk K2.6. Jadi, jangan langsung membeli GPU atau mengandalkan satu mesin konsumer sebelum ada bukti K2.6 yang spesifik.

Peta keputusan cepat

Skenario deployment	Rekomendasi	Alasannya
Laptop atau desktop biasa	Jangan diasumsikan akan lancar	Ambang hardware K2.6 belum jelas dalam sumber yang tersedia; sebagai pembanding, dokumen K2.5 kuantisasi masih menunjukkan kebutuhan disk 240 GB.^[13]
Workstation tunggal kelas atas	Tunggu bobot kuantisasi K2.6 dan dukungan runtime yang eksplisit	K2.5 punya jalur GGUF/llama.cpp, tetapi itu tidak otomatis membuktikan K2.6 sudah didukung.^[13]
Cloud privat atau server GPU yang dikelola sendiri	Paling masuk akal untuk POC	K2.6 sudah punya dokumen deployment dan bagian penggunaan model di halaman Hugging Face.^[1]^[6]
API internal untuk produksi	Mulai dari trafik kecil, lalu ukur sebelum scale-up	Bukti yang ada mendukung evaluasi deployment, bukan satu set spesifikasi hardware minimum resmi.^[1]^[6]

Bukti deployment yang sudah bisa dipegang

Ada dua titik awal yang relatif kuat untuk menilai self-hosting Kimi K2.6. Pertama, repositori moonshotai/Kimi-K2.6 di Hugging Face memiliki dokumen docs/deploy_guidance.md.^[1] Kedua, halaman model K2.6 sendiri menampilkan bagian Deployment dan


Model Usage

, sehingga topik deployment bukan sekadar spekulasi pihak ketiga.^[6]

Seri K2 juga punya konteks dokumentasi yang sudah ada. Repositori GitHub Kimi-K2 dari MoonshotAI dapat diakses publik, dan di dalamnya juga terdapat docs/deploy_guidance.md.^[2]^[3] Ini tidak berarti parameter deployment K2, K2.5, dan K2.6 pasti sama. Namun, setidaknya seri K2 bukan keluarga model yang sama sekali tanpa dasar dokumentasi deployment.

Cloud privat: jalur POC yang paling masuk akal

Jika target Anda adalah API internal perusahaan, layanan di cloud privat, atau node GPU yang dikelola sendiri, Kimi K2.6 sudah layak masuk tahap POC. Alasannya bukan karena model ini sudah terbukti ringan, melainkan karena ada halaman model dan dokumen deployment khusus yang bisa dijadikan titik awal pengujian.^[1]^[6]

Urutan kerja yang lebih aman:

Mulai dari dokumen K2.6, bukan K2 atau K2.5. Jadikan docs/deploy_guidance.md di moonshotai/Kimi-K2.6 sebagai acuan pertama.^[1]
Cek dukungan inference engine. vLLM recipes sudah memiliki panduan penggunaan Kimi-K2.5 dan juga menampilkan tautan panduan Kimi-K2 serta Kimi-K2-Thinking. Ini berguna sebagai sinyal ekosistem, tetapi belum boleh dibaca sebagai jaminan hardware untuk K2.6.^[12]
Uji dengan trafik sekecil mungkin. Pastikan model bisa dimuat, bisa merespons stabil, lalu ukur pemakaian memori GPU dan CPU, throughput, konkurensi, panjang konteks, latensi, serta biaya per permintaan.

Dengan kata lain, cloud privat bukan berarti sudah pasti mulus. Tetapi dibanding laptop atau desktop biasa, cloud privat adalah tempat yang lebih rasional untuk mengubah dokumentasi menjadi data lapangan.

Deployment lokal: jangan menyalin asumsi K2.5 ke K2.6

Kesalahan paling mudah adalah menganggap informasi K2.5 otomatis berlaku untuk K2.6. Yang bisa dikutip dengan jelas saat ini adalah dokumentasi Unsloth untuk Kimi K2.5: dokumen itu menyebut Kimi K2.5 sebagai model 1 triliun parameter, model penuhnya membutuhkan 600 GB ruang disk, sedangkan versi kuantisasi


Unsloth Dynamic 1.8-bit

turun menjadi 240 GB; dokumen yang sama juga memberi konteks Kimi-K2.5-GGUF dan penggunaan llama.cpp.^[13]

Dari situ, ada dua kesimpulan konservatif:

Kimi K2.5 memang memiliki jalur lokal lewat kuantisasi, GGUF, dan llama.cpp.^[13]
Bahkan untuk K2.5 yang sudah dikuantisasi, kebutuhan penyimpanannya masih besar. Jadi K2.6 tidak seharusnya dibayangkan sebagai model yang bisa dijalankan tanpa beban di laptop biasa.^[13]

Namun, data K2.5 tidak membuktikan bahwa K2.6 sudah punya GGUF resmi, sudah didukung llama.cpp secara eksplisit, atau bisa berjalan stabil di satu GPU konsumer. Untuk K2.6, semua itu masih perlu dicek langsung.

Cara membaca vLLM, llama.cpp, dan KTransformers

vLLM

vLLM recipes sudah menyediakan panduan penggunaan Kimi-K2.5, serta menampilkan tautan panduan Kimi-K2 dan Kimi-K2-Thinking.^[12] Untuk tim yang ingin membangun API internal ber-throughput tinggi, ini sinyal penting. Tetapi sebelum ada recipe K2.6 yang eksplisit atau konfigurasi konkret di dokumen K2.6, jangan mengubahnya menjadi daftar spesifikasi minimum.

llama.cpp dan GGUF

Petunjuk GGUF dan llama.cpp yang jelas saat ini berasal dari Kimi K2.5. Dokumentasi Unsloth mencantumkan Kimi-K2.5-GGUF dan konteks perintah llama.cpp.^[13] Jika target Anda adalah menjalankan K2.6 secara lokal, langkah pertama adalah memastikan apakah bobot K2.6 dalam format GGUF atau format kuantisasi lain memang tersedia dan didukung runtime yang dipakai.

KTransformers

KTransformers menggambarkan dirinya sebagai proyek riset untuk inference dan fine-tuning model bahasa besar dengan komputasi heterogen CPU-GPU.^[19] Dokumentasinya menyebut dukungan untuk Kimi-K2 dan Kimi-K2-0905, serta memiliki tutorial Kimi-K2.5 dengan SGLang dan KT-Kernel untuk inference heterogen CPU-GPU.^[20]^[21] Ini menarik sebagai arah eksplorasi, tetapi sumber yang tersedia belum membuktikan dukungan penuh KTransformers untuk K2.6.

Angka hardware dari pihak ketiga: berguna, tapi jangan jadi dasar belanja

Sebagian panduan pihak ketiga memberi klaim yang lebih konkret untuk K2.6, misalnya model INT4 sekitar 594 GB, bisa berjalan dengan empat GPU NVIDIA H100, dan melibatkan framework seperti vLLM, SGLang, serta KTransformers.^[7] Informasi seperti ini boleh masuk daftar hipotesis teknis dan estimasi biaya awal.

Tetapi jangan menjadikannya satu-satunya dasar pembelian GPU atau janji jadwal produksi. Bukti yang lebih kuat dalam sumber saat ini adalah bahwa K2.6 memiliki pintu masuk dokumentasi deployment, dan ekosistem K2/K2.5 punya beberapa jejak deployment terkait; itu belum sama dengan spesifikasi minimum resmi untuk K2.6.^[1]^[2]^[6]^[12]

Checklist sebelum mulai implementasi

Sebelum deployment, minimal pastikan hal-hal berikut:

Sumber model: gunakan halaman Hugging Face moonshotai/Kimi-K2.6 dan dokumen deployment K2.6 sebagai rujukan utama.^[1]^[6]
Format bobot: pastikan format yang tersedia dapat dimuat oleh runtime pilihan Anda, baik bobot asli, kuantisasi, GGUF, atau format lain.
Inference engine: cek apakah vLLM, SGLang, KTransformers, atau llama.cpp mendukung K2.6 secara eksplisit, bukan hanya K2 atau K2.5.^[12]^[20]^[21]
Hardware: ukur GPU, jumlah GPU, VRAM, RAM sistem, kapasitas disk, metode pemuatan model, dan waktu cold start dengan workload nyata.
Target layanan: kebutuhan eksperimen satu orang, tool internal, dan API multi-user berbeda jauh dalam throughput, latensi, serta stabilitas.
Rencana fallback: jika K2.6 belum stabil, siapkan opsi model lain yang sudah tervalidasi atau jalur K2.5 kuantisasi yang dokumentasinya sudah tersedia.^[13]

Kesimpulan akhir

Kimi K2.6 bukan model yang tanpa pintu self-hosting: dokumen deployment dan bagian penggunaan modelnya sudah tersedia di Hugging Face.^[1]^[6] Namun, ia juga belum bisa dengan aman disebut siap jalan di laptop, desktop, atau satu GPU konsumer, karena sumber yang tersedia belum menetapkan kebutuhan GPU, VRAM, RAM, disk, GGUF resmi, atau dukungan khusus llama.cpp untuk K2.6.

Jika Anda punya cloud privat atau server GPU yang dikelola sendiri, langkah paling masuk akal adalah mulai dari dokumen K2.6 dan menjalankan POC kecil.^[1]^[6] Jika targetnya mesin pribadi atau workstation tunggal, lebih aman menunggu bobot kuantisasi K2.6, dukungan runtime, dan angka kebutuhan hardware yang benar-benar spesifik sebelum belanja perangkat atau menjanjikan deployment produksi.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.
Untuk mesin lokal, bukti masih kurang: sumber yang tersedia belum menetapkan GPU minimum, VRAM, RAM, disk, GGUF resmi, atau dukungan khusus llama.cpp untuk K2.6.
Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

大家也會問

「Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti」的簡短答案是什麼？

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月23日

研究問題

搜尋並查核事實：Kimi K2.6 開源之後要怎麼自己部署？本地端或私有雲跑得動嗎？

Studio Global AI2026年4月23日22 個來源

附引用的答案

可以自己部署，但就你提供的證據來看，較可信的結論是：Kimi K2.6 確實已有官方部署指引檔案，私有雲部署看起來是主要場景；至於「一般本地端是否跑得動」，目前證據只足以支持「K2.5 有本地量化方案，K2.6 的精確硬體門檻與步驟仍不足以確認」。 ^[2]^[4]^[6]

查核結論

Moonshot 已公開一份 Kimi-K2.6 的官方部署指引文件 docs/deploy_guidance.md，這表示「自架部署」本身是被官方支持的方向。 ^[2]
Moonshot 的公開 Kimi-K2 倉庫也包含同名的部署指引檔案，顯示 K2 系列本來就有自部署文件脈絡。 ^[4]^[6]
vLLM 官方 recipes 已提供 moonshotai/Kimi-K2 與 Kimi-K2.5 的使用指南，因此若你要在私有雲或自管 GPU 叢集上跑，vLLM 是目前證據裡最像官方/準官方路線的推論。 ^[1]
對「本地端能不能跑」這件事，現有證據只明確顯示 K2.5 有本地量化版本與教學；該指南寫到完整 1T 參數模型需要 600GB 磁碟空間，而量化後的
```
Unsloth Dynamic 1.8-bit
```
版本可降到 240GB。 ^[3]
但你問的是 K2.6；目前提供的證據沒有列出 K2.6 的 GPU 數量、顯存需求、CPU/RAM 建議、是否有 GGUF、是否支援 llama.cpp，也沒有完整部署命令，所以這部分我不能替你下定論。證據不足。 ^[2]

代表什麼

私有雲

以現有證據看，私有雲/自管 GPU 伺服器是比較可行、也比較像官方文件預設的部署場景。 ^[1]^[2]
如果你有 Kubernetes、裸機 GPU 節點或雲上專屬 GPU VM，優先看官方 deploy_guidance.md 與 vLLM 路線會比較合理。 ^[1]^[2]

本地端

若你說的「本地端」是一般單機工作站或個人電腦，現有證據只能說：K2.5 的量化版存在，且就連量化版也需要 240GB 磁碟空間，代表模型體量非常大。 ^[3]
因此，K2.6 即使能本地跑，較高機率也會依賴量化、分片、或高規格工作站，而不是一般消費級筆電直接順跑；但這句對 K2.6 仍屬保守推論，不是已被你提供證據直接證實的規格結論。 ^[2]^[3]

如果你現在要自己部署，實務上可怎麼做

先確認官方 Kimi-K2.6 的 deploy_guidance.md，因為這是目前最直接的官方依據。 ^[2]
若你的目標是私有雲 API 服務，優先檢查 vLLM 相容路線，因為 vLLM 已有 Kimi K2/K2.5 recipes。 ^[1]
若你的目標是單機本地實驗，先確認是否已有 K2.6 的量化權重或 GGUF 形式；你提供的證據目前只證明 K2.5 有這條路。 ^[3]

我能確認與不能確認的地方

我能確認的：

K2.6 有官方部署指引檔。 ^[2]
K2 系列有公開部署文件脈絡。 ^[4]^[6]
vLLM 已有 Kimi K2/K2.5 使用指南。 ^[1]
K2.5 有本地量化執行教學，且模型檔需求非常大。 ^[3]

我不能確認的：

K2.6 是否已提供官方 GGUF。證據不足。 ^[2]
K2.6 最低 GPU/顯存需求。證據不足。 ^[2]
K2.6 能否在一般單卡家用電腦順利運行。證據不足。 ^[2]
K2.6 的官方推薦部署命令與拓撲。你提供的是文件入口，不是完整內容，因此我不知道。 ^[2]

如果你願意，我下一步可以直接幫你整理成一份「Kimi K2.6 自部署決策表」：分成「單機本地 / 單台工作站 / 私有雲多 GPU」三種方案，列出你該先確認的硬體與軟體條件。

來源

[1] docs/deploy_guidance.md · moonshotai/Kimi-K2.6 at mainhuggingface.co
docs/deploy guidance.md · moonshotai/Kimi-K2.6 at main. Models. Docs. . moonshotai. Kimi-K2.6. Moonshot AI 8.99k. [Image-Text-to-Text](
[2] Kimi-K2/docs/deploy_guidance.md at main · MoonshotAI/Kimi-K2github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. [Issues 61](https…
[3] Kimi K2 is the large language model series developed by Moonshot ...github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. Issues 61. Pull requests 3. [Actions](
[6] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi-K2.6. Model Introduction]( "1. Model Summary]( "2. Evaluation Results]( "3. Deployment]( "5. Model Usage]( "6. [Chat Completion with visual content]( "Chat Completion…
[7] Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guidelushbinary.com
Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guide Lushbinary. Self-Host Kimi K2.6: Complete Guide to vLLM, SGLang & KTransformers Deployment. . The INT4 model weighs approximately 594GB on HuggingFace and can run on as few as four H100 GPUs. Three inf...
[12] moonshotai/Kimi-K2.5 Usage Guide - vLLM Recipesdocs.vllm.ai
Skip to content. moonshotai/Kimi-K2 Usage Guide. Kimi-K2-Thinking Usage Guide. - [x] moonshotai/Kimi-K2.5 Usage Guide moonshotai/Kimi-K2.5 Usage Guide Table of contents. [NVIDIA](
[13] Kimi K2.5: How to Run Locally Guide | Unsloth Documentationunsloth.ai
The 1T parameter hybrid reasoning model requires 600GB of disk space, while the quantized Unsloth Dynamic 1.8-bit version reduces this to 240GB (-60% size) : Kimi-K2.5-GGUF . export LLAMA CACHE="unsloth/Kimi-K2.5-GGUF" export LLAMA CACHE="unsloth/Kimi-K2.5-...
[19] GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations · GitHubgithub.com
KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project
[20] ktransformers/doc/en/Kimi-K2.md at main · kvcache-ai/ktransformers · GitHubgithub.com
We are very pleased to announce that Ktransformers now supports Kimi-K2 and Kimi-K2-0905. On a single-socket CPU with one consumer-grade GPU,
[21] ktransformers/doc/en/Kimi-K2.5.md at main · kvcache-ai/ktransformers · GitHubgithub.com
This tutorial demonstrates how to run Kimi-K2.5 model inference using SGLang integrated with KT-Kernel for CPU-GPU heterogeneous inference.

熱門探索內容

答案已發布2026年4月29日Last edited 2026年5月6日10 個來源

Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti

使用 Studio Global AI 搜尋並查證事實探索更多內容

17K0


Model Usage

; itu cukup untuk memulai uji konsep atau proof of concept, POC, di cloud privat atau server GPU yang dikelola sendiri.^[1]^[6]

Peta keputusan cepat

Skenario deployment	Rekomendasi	Alasannya
Laptop atau desktop biasa	Jangan diasumsikan akan lancar	Ambang hardware K2.6 belum jelas dalam sumber yang tersedia; sebagai pembanding, dokumen K2.5 kuantisasi masih menunjukkan kebutuhan disk 240 GB.^[13]
Workstation tunggal kelas atas	Tunggu bobot kuantisasi K2.6 dan dukungan runtime yang eksplisit	K2.5 punya jalur GGUF/llama.cpp, tetapi itu tidak otomatis membuktikan K2.6 sudah didukung.^[13]
Cloud privat atau server GPU yang dikelola sendiri	Paling masuk akal untuk POC	K2.6 sudah punya dokumen deployment dan bagian penggunaan model di halaman Hugging Face.^[1]^[6]
API internal untuk produksi	Mulai dari trafik kecil, lalu ukur sebelum scale-up	Bukti yang ada mendukung evaluasi deployment, bukan satu set spesifikasi hardware minimum resmi.^[1]^[6]

Bukti deployment yang sudah bisa dipegang


Model Usage

, sehingga topik deployment bukan sekadar spekulasi pihak ketiga.^[6]

Cloud privat: jalur POC yang paling masuk akal

Urutan kerja yang lebih aman:

Mulai dari dokumen K2.6, bukan K2 atau K2.5. Jadikan docs/deploy_guidance.md di moonshotai/Kimi-K2.6 sebagai acuan pertama.^[1]
Cek dukungan inference engine. vLLM recipes sudah memiliki panduan penggunaan Kimi-K2.5 dan juga menampilkan tautan panduan Kimi-K2 serta Kimi-K2-Thinking. Ini berguna sebagai sinyal ekosistem, tetapi belum boleh dibaca sebagai jaminan hardware untuk K2.6.^[12]
Uji dengan trafik sekecil mungkin. Pastikan model bisa dimuat, bisa merespons stabil, lalu ukur pemakaian memori GPU dan CPU, throughput, konkurensi, panjang konteks, latensi, serta biaya per permintaan.

Deployment lokal: jangan menyalin asumsi K2.5 ke K2.6


Unsloth Dynamic 1.8-bit

turun menjadi 240 GB; dokumen yang sama juga memberi konteks Kimi-K2.5-GGUF dan penggunaan llama.cpp.^[13]

Dari situ, ada dua kesimpulan konservatif:

Kimi K2.5 memang memiliki jalur lokal lewat kuantisasi, GGUF, dan llama.cpp.^[13]
Bahkan untuk K2.5 yang sudah dikuantisasi, kebutuhan penyimpanannya masih besar. Jadi K2.6 tidak seharusnya dibayangkan sebagai model yang bisa dijalankan tanpa beban di laptop biasa.^[13]

Cara membaca vLLM, llama.cpp, dan KTransformers

vLLM

llama.cpp dan GGUF

KTransformers

Angka hardware dari pihak ketiga: berguna, tapi jangan jadi dasar belanja

Checklist sebelum mulai implementasi

Sebelum deployment, minimal pastikan hal-hal berikut:

Sumber model: gunakan halaman Hugging Face moonshotai/Kimi-K2.6 dan dokumen deployment K2.6 sebagai rujukan utama.^[1]^[6]
Format bobot: pastikan format yang tersedia dapat dimuat oleh runtime pilihan Anda, baik bobot asli, kuantisasi, GGUF, atau format lain.
Inference engine: cek apakah vLLM, SGLang, KTransformers, atau llama.cpp mendukung K2.6 secara eksplisit, bukan hanya K2 atau K2.5.^[12]^[20]^[21]
Hardware: ukur GPU, jumlah GPU, VRAM, RAM sistem, kapasitas disk, metode pemuatan model, dan waktu cold start dengan workload nyata.
Target layanan: kebutuhan eksperimen satu orang, tool internal, dan API multi-user berbeda jauh dalam throughput, latensi, serta stabilitas.
Rencana fallback: jika K2.6 belum stabil, siapkan opsi model lain yang sudah tervalidasi atau jalur K2.5 kuantisasi yang dokumentasinya sudah tersedia.^[13]

Kesimpulan akhir

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.
Untuk mesin lokal, bukti masih kurang: sumber yang tersedia belum menetapkan GPU minimum, VRAM, RAM, disk, GGUF resmi, atau dukungan khusus llama.cpp untuk K2.6.
Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

大家也會問

「Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti」的簡短答案是什麼？

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月23日

研究問題

搜尋並查核事實：Kimi K2.6 開源之後要怎麼自己部署？本地端或私有雲跑得動嗎？

Studio Global AI2026年4月23日22 個來源

附引用的答案

查核結論

Moonshot 已公開一份 Kimi-K2.6 的官方部署指引文件 docs/deploy_guidance.md，這表示「自架部署」本身是被官方支持的方向。 ^[2]
Moonshot 的公開 Kimi-K2 倉庫也包含同名的部署指引檔案，顯示 K2 系列本來就有自部署文件脈絡。 ^[4]^[6]
vLLM 官方 recipes 已提供 moonshotai/Kimi-K2 與 Kimi-K2.5 的使用指南，因此若你要在私有雲或自管 GPU 叢集上跑，vLLM 是目前證據裡最像官方/準官方路線的推論。 ^[1]
對「本地端能不能跑」這件事，現有證據只明確顯示 K2.5 有本地量化版本與教學；該指南寫到完整 1T 參數模型需要 600GB 磁碟空間，而量化後的
```
Unsloth Dynamic 1.8-bit
```
版本可降到 240GB。 ^[3]
但你問的是 K2.6；目前提供的證據沒有列出 K2.6 的 GPU 數量、顯存需求、CPU/RAM 建議、是否有 GGUF、是否支援 llama.cpp，也沒有完整部署命令，所以這部分我不能替你下定論。證據不足。 ^[2]

代表什麼

私有雲

以現有證據看，私有雲/自管 GPU 伺服器是比較可行、也比較像官方文件預設的部署場景。 ^[1]^[2]
如果你有 Kubernetes、裸機 GPU 節點或雲上專屬 GPU VM，優先看官方 deploy_guidance.md 與 vLLM 路線會比較合理。 ^[1]^[2]

本地端

若你說的「本地端」是一般單機工作站或個人電腦，現有證據只能說：K2.5 的量化版存在，且就連量化版也需要 240GB 磁碟空間，代表模型體量非常大。 ^[3]
因此，K2.6 即使能本地跑，較高機率也會依賴量化、分片、或高規格工作站，而不是一般消費級筆電直接順跑；但這句對 K2.6 仍屬保守推論，不是已被你提供證據直接證實的規格結論。 ^[2]^[3]

如果你現在要自己部署，實務上可怎麼做

先確認官方 Kimi-K2.6 的 deploy_guidance.md，因為這是目前最直接的官方依據。 ^[2]
若你的目標是私有雲 API 服務，優先檢查 vLLM 相容路線，因為 vLLM 已有 Kimi K2/K2.5 recipes。 ^[1]
若你的目標是單機本地實驗，先確認是否已有 K2.6 的量化權重或 GGUF 形式；你提供的證據目前只證明 K2.5 有這條路。 ^[3]

我能確認與不能確認的地方

我能確認的：

K2.6 有官方部署指引檔。 ^[2]
K2 系列有公開部署文件脈絡。 ^[4]^[6]
vLLM 已有 Kimi K2/K2.5 使用指南。 ^[1]
K2.5 有本地量化執行教學，且模型檔需求非常大。 ^[3]

我不能確認的：

K2.6 是否已提供官方 GGUF。證據不足。 ^[2]
K2.6 最低 GPU/顯存需求。證據不足。 ^[2]
K2.6 能否在一般單卡家用電腦順利運行。證據不足。 ^[2]
K2.6 的官方推薦部署命令與拓撲。你提供的是文件入口，不是完整內容，因此我不知道。 ^[2]

來源

[1] docs/deploy_guidance.md · moonshotai/Kimi-K2.6 at mainhuggingface.co
docs/deploy guidance.md · moonshotai/Kimi-K2.6 at main. Models. Docs. . moonshotai. Kimi-K2.6. Moonshot AI 8.99k. [Image-Text-to-Text](
[2] Kimi-K2/docs/deploy_guidance.md at main · MoonshotAI/Kimi-K2github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. [Issues 61](https…
[3] Kimi K2 is the large language model series developed by Moonshot ...github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. Issues 61. Pull requests 3. [Actions](
[6] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi-K2.6. Model Introduction]( "1. Model Summary]( "2. Evaluation Results]( "3. Deployment]( "5. Model Usage]( "6. [Chat Completion with visual content]( "Chat Completion…
[7] Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guidelushbinary.com
Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guide Lushbinary. Self-Host Kimi K2.6: Complete Guide to vLLM, SGLang & KTransformers Deployment. . The INT4 model weighs approximately 594GB on HuggingFace and can run on as few as four H100 GPUs. Three inf...
[12] moonshotai/Kimi-K2.5 Usage Guide - vLLM Recipesdocs.vllm.ai
Skip to content. moonshotai/Kimi-K2 Usage Guide. Kimi-K2-Thinking Usage Guide. - [x] moonshotai/Kimi-K2.5 Usage Guide moonshotai/Kimi-K2.5 Usage Guide Table of contents. [NVIDIA](
[13] Kimi K2.5: How to Run Locally Guide | Unsloth Documentationunsloth.ai
The 1T parameter hybrid reasoning model requires 600GB of disk space, while the quantized Unsloth Dynamic 1.8-bit version reduces this to 240GB (-60% size) : Kimi-K2.5-GGUF . export LLAMA CACHE="unsloth/Kimi-K2.5-GGUF" export LLAMA CACHE="unsloth/Kimi-K2.5-...
[19] GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations · GitHubgithub.com
KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project
[20] ktransformers/doc/en/Kimi-K2.md at main · kvcache-ai/ktransformers · GitHubgithub.com
We are very pleased to announce that Ktransformers now supports Kimi-K2 and Kimi-K2-0905. On a single-socket CPU with one consumer-grade GPU,
[21] ktransformers/doc/en/Kimi-K2.5.md at main · kvcache-ai/ktransformers · GitHubgithub.com
This tutorial demonstrates how to run Kimi-K2.5 model inference using SGLang integrated with KT-Kernel for CPU-GPU heterogeneous inference.

熱門探索內容

答案已發布2026年4月29日Last edited 2026年5月6日10 個來源

Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti

使用 Studio Global AI 搜尋並查證事實探索更多內容

17K0


Model Usage

; itu cukup untuk memulai uji konsep atau proof of concept, POC, di cloud privat atau server GPU yang dikelola sendiri.^[1]^[6]

Peta keputusan cepat

Skenario deployment	Rekomendasi	Alasannya
Laptop atau desktop biasa	Jangan diasumsikan akan lancar	Ambang hardware K2.6 belum jelas dalam sumber yang tersedia; sebagai pembanding, dokumen K2.5 kuantisasi masih menunjukkan kebutuhan disk 240 GB.^[13]
Workstation tunggal kelas atas	Tunggu bobot kuantisasi K2.6 dan dukungan runtime yang eksplisit	K2.5 punya jalur GGUF/llama.cpp, tetapi itu tidak otomatis membuktikan K2.6 sudah didukung.^[13]
Cloud privat atau server GPU yang dikelola sendiri	Paling masuk akal untuk POC	K2.6 sudah punya dokumen deployment dan bagian penggunaan model di halaman Hugging Face.^[1]^[6]
API internal untuk produksi	Mulai dari trafik kecil, lalu ukur sebelum scale-up	Bukti yang ada mendukung evaluasi deployment, bukan satu set spesifikasi hardware minimum resmi.^[1]^[6]

Bukti deployment yang sudah bisa dipegang


Model Usage

, sehingga topik deployment bukan sekadar spekulasi pihak ketiga.^[6]

Cloud privat: jalur POC yang paling masuk akal

Urutan kerja yang lebih aman:

Mulai dari dokumen K2.6, bukan K2 atau K2.5. Jadikan docs/deploy_guidance.md di moonshotai/Kimi-K2.6 sebagai acuan pertama.^[1]
Cek dukungan inference engine. vLLM recipes sudah memiliki panduan penggunaan Kimi-K2.5 dan juga menampilkan tautan panduan Kimi-K2 serta Kimi-K2-Thinking. Ini berguna sebagai sinyal ekosistem, tetapi belum boleh dibaca sebagai jaminan hardware untuk K2.6.^[12]
Uji dengan trafik sekecil mungkin. Pastikan model bisa dimuat, bisa merespons stabil, lalu ukur pemakaian memori GPU dan CPU, throughput, konkurensi, panjang konteks, latensi, serta biaya per permintaan.

Deployment lokal: jangan menyalin asumsi K2.5 ke K2.6


Unsloth Dynamic 1.8-bit

turun menjadi 240 GB; dokumen yang sama juga memberi konteks Kimi-K2.5-GGUF dan penggunaan llama.cpp.^[13]

Dari situ, ada dua kesimpulan konservatif:

Kimi K2.5 memang memiliki jalur lokal lewat kuantisasi, GGUF, dan llama.cpp.^[13]
Bahkan untuk K2.5 yang sudah dikuantisasi, kebutuhan penyimpanannya masih besar. Jadi K2.6 tidak seharusnya dibayangkan sebagai model yang bisa dijalankan tanpa beban di laptop biasa.^[13]

Cara membaca vLLM, llama.cpp, dan KTransformers

vLLM

llama.cpp dan GGUF

KTransformers

Angka hardware dari pihak ketiga: berguna, tapi jangan jadi dasar belanja

Checklist sebelum mulai implementasi

Sebelum deployment, minimal pastikan hal-hal berikut:

Sumber model: gunakan halaman Hugging Face moonshotai/Kimi-K2.6 dan dokumen deployment K2.6 sebagai rujukan utama.^[1]^[6]
Format bobot: pastikan format yang tersedia dapat dimuat oleh runtime pilihan Anda, baik bobot asli, kuantisasi, GGUF, atau format lain.
Inference engine: cek apakah vLLM, SGLang, KTransformers, atau llama.cpp mendukung K2.6 secara eksplisit, bukan hanya K2 atau K2.5.^[12]^[20]^[21]
Hardware: ukur GPU, jumlah GPU, VRAM, RAM sistem, kapasitas disk, metode pemuatan model, dan waktu cold start dengan workload nyata.
Target layanan: kebutuhan eksperimen satu orang, tool internal, dan API multi-user berbeda jauh dalam throughput, latensi, serta stabilitas.
Rencana fallback: jika K2.6 belum stabil, siapkan opsi model lain yang sudah tervalidasi atau jalur K2.5 kuantisasi yang dokumentasinya sudah tersedia.^[13]

Kesimpulan akhir

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.
Untuk mesin lokal, bukti masih kurang: sumber yang tersedia belum menetapkan GPU minimum, VRAM, RAM, disk, GGUF resmi, atau dukungan khusus llama.cpp untuk K2.6.
Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

大家也會問

「Kimi K2.6 bisa dideploy sendiri? Cloud privat bisa POC, lokal masih perlu bukti」的簡短答案是什麼？

Kimi K2.6 sudah memiliki dokumen deployment di Hugging Face serta bagian Deployment dan Model Usage, sehingga cloud privat atau server GPU yang dikelola sendiri layak dipakai untuk POC.

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Pembanding terdekat adalah Kimi K2.5: dokumentasi Unsloth menyebut model penuh 1 triliun parameter butuh 600 GB disk, sedangkan versi kuantisasi 1.8 bit masih 240 GB.

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年4月23日

研究問題

搜尋並查核事實：Kimi K2.6 開源之後要怎麼自己部署？本地端或私有雲跑得動嗎？

Studio Global AI2026年4月23日22 個來源

附引用的答案

查核結論

Moonshot 已公開一份 Kimi-K2.6 的官方部署指引文件 docs/deploy_guidance.md，這表示「自架部署」本身是被官方支持的方向。 ^[2]
Moonshot 的公開 Kimi-K2 倉庫也包含同名的部署指引檔案，顯示 K2 系列本來就有自部署文件脈絡。 ^[4]^[6]
vLLM 官方 recipes 已提供 moonshotai/Kimi-K2 與 Kimi-K2.5 的使用指南，因此若你要在私有雲或自管 GPU 叢集上跑，vLLM 是目前證據裡最像官方/準官方路線的推論。 ^[1]
對「本地端能不能跑」這件事，現有證據只明確顯示 K2.5 有本地量化版本與教學；該指南寫到完整 1T 參數模型需要 600GB 磁碟空間，而量化後的
```
Unsloth Dynamic 1.8-bit
```
版本可降到 240GB。 ^[3]
但你問的是 K2.6；目前提供的證據沒有列出 K2.6 的 GPU 數量、顯存需求、CPU/RAM 建議、是否有 GGUF、是否支援 llama.cpp，也沒有完整部署命令，所以這部分我不能替你下定論。證據不足。 ^[2]

代表什麼

私有雲

以現有證據看，私有雲/自管 GPU 伺服器是比較可行、也比較像官方文件預設的部署場景。 ^[1]^[2]
如果你有 Kubernetes、裸機 GPU 節點或雲上專屬 GPU VM，優先看官方 deploy_guidance.md 與 vLLM 路線會比較合理。 ^[1]^[2]

本地端

若你說的「本地端」是一般單機工作站或個人電腦，現有證據只能說：K2.5 的量化版存在，且就連量化版也需要 240GB 磁碟空間，代表模型體量非常大。 ^[3]
因此，K2.6 即使能本地跑，較高機率也會依賴量化、分片、或高規格工作站，而不是一般消費級筆電直接順跑；但這句對 K2.6 仍屬保守推論，不是已被你提供證據直接證實的規格結論。 ^[2]^[3]

如果你現在要自己部署，實務上可怎麼做

先確認官方 Kimi-K2.6 的 deploy_guidance.md，因為這是目前最直接的官方依據。 ^[2]
若你的目標是私有雲 API 服務，優先檢查 vLLM 相容路線，因為 vLLM 已有 Kimi K2/K2.5 recipes。 ^[1]
若你的目標是單機本地實驗，先確認是否已有 K2.6 的量化權重或 GGUF 形式；你提供的證據目前只證明 K2.5 有這條路。 ^[3]

我能確認與不能確認的地方

我能確認的：

K2.6 有官方部署指引檔。 ^[2]
K2 系列有公開部署文件脈絡。 ^[4]^[6]
vLLM 已有 Kimi K2/K2.5 使用指南。 ^[1]
K2.5 有本地量化執行教學，且模型檔需求非常大。 ^[3]

我不能確認的：

K2.6 是否已提供官方 GGUF。證據不足。 ^[2]
K2.6 最低 GPU/顯存需求。證據不足。 ^[2]
K2.6 能否在一般單卡家用電腦順利運行。證據不足。 ^[2]
K2.6 的官方推薦部署命令與拓撲。你提供的是文件入口，不是完整內容，因此我不知道。 ^[2]

來源

[1] docs/deploy_guidance.md · moonshotai/Kimi-K2.6 at mainhuggingface.co
docs/deploy guidance.md · moonshotai/Kimi-K2.6 at main. Models. Docs. . moonshotai. Kimi-K2.6. Moonshot AI 8.99k. [Image-Text-to-Text](
[2] Kimi-K2/docs/deploy_guidance.md at main · MoonshotAI/Kimi-K2github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. [Issues 61](https…
[3] Kimi K2 is the large language model series developed by Moonshot ...github.com
Skip to content. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert. Code. Issues 61. Pull requests 3. [Actions](
[6] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi-K2.6. Model Introduction]( "1. Model Summary]( "2. Evaluation Results]( "3. Deployment]( "5. Model Usage]( "6. [Chat Completion with visual content]( "Chat Completion…
[7] Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guidelushbinary.com
Self-Host Kimi K2.6: vLLM, SGLang & KTransformers Guide Lushbinary. Self-Host Kimi K2.6: Complete Guide to vLLM, SGLang & KTransformers Deployment. . The INT4 model weighs approximately 594GB on HuggingFace and can run on as few as four H100 GPUs. Three inf...
[12] moonshotai/Kimi-K2.5 Usage Guide - vLLM Recipesdocs.vllm.ai
Skip to content. moonshotai/Kimi-K2 Usage Guide. Kimi-K2-Thinking Usage Guide. - [x] moonshotai/Kimi-K2.5 Usage Guide moonshotai/Kimi-K2.5 Usage Guide Table of contents. [NVIDIA](
[13] Kimi K2.5: How to Run Locally Guide | Unsloth Documentationunsloth.ai
The 1T parameter hybrid reasoning model requires 600GB of disk space, while the quantized Unsloth Dynamic 1.8-bit version reduces this to 240GB (-60% size) : Kimi-K2.5-GGUF . export LLAMA CACHE="unsloth/Kimi-K2.5-GGUF" export LLAMA CACHE="unsloth/Kimi-K2.5-...
[19] GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations · GitHubgithub.com
KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project
[20] ktransformers/doc/en/Kimi-K2.md at main · kvcache-ai/ktransformers · GitHubgithub.com
We are very pleased to announce that Ktransformers now supports Kimi-K2 and Kimi-K2-0905. On a single-socket CPU with one consumer-grade GPU,
[21] ktransformers/doc/en/Kimi-K2.5.md at main · kvcache-ai/ktransformers · GitHubgithub.com
This tutorial demonstrates how to run Kimi-K2.5 model inference using SGLang integrated with KT-Kernel for CPU-GPU heterogeneous inference.