Kimi K2.6 在 Hugging Face 上有 moonshotai/Kimi-K2.6 模型頁,並有 docs/deploy_guidance.md 部署文件。 vLLM Recipes 亦有 Kimi K2.6 專頁,並將模型標示為
1T / 32B active · MOE · 256K ctx
另一方面,CloudPrice 的 Kimi K2.6 頁面列出 3 個 provider,說明使用者不一定要自己部署才可以使用模型。 不過,provider 供應、價格和限制會變動,正式接入前仍應以各 provider 當刻頁面為準。
vLLM Recipes 將 Kimi K2.6 標示為 1T 參數、32B active 的 MoE 模型,並標出 256K context。 這些資訊本身已足以提醒:K2.6 的部署規劃應以大型模型 serving 思路處理,而不是假設它可以像小型本地模型一樣,用單張消費級 GPU 即插即用。
可參考的 vLLM Kimi K2 usage guide 是針對 moonshotai/Kimi-K2-Instruct,不是 Kimi K2.6;因此它不能反推出 K2.6 的最低硬件規格。 但該示例使用 Ray 在
node 0node 1--tensor-parallel-size 8--pipeline-parallel-size 2--dtype bfloat16--quantization fp8--kv-cache-dtype fp8
第三方資料亦有類似訊號。AllThingsHow 的 Kimi K2.6 文章展示一個 moonshotai/Kimi-K2.6-INT4 的 vLLM 命令,當中使用 --tensor-parallel-size 4--max-model-len 131072 另一篇 self-hosting guide 聲稱 Kimi K2.6 INT4 模型約 594GB,並可在少至 4 張 H100 GPU 上運行。
這些說法可以幫你設計測試規模,但它們不是 Moonshot 官方最低硬件保證,也不應直接變成採購規格。
不要把 moonshotai/Kimi-K2.6、moonshotai/Kimi-K2.6-INT4 和 moonshotai/Kimi-K2-Instruct 混為同一個部署問題。K2.6 模型頁、K2.6 INT4 第三方 vLLM 示例、以及 vLLM 的 K2-Instruct usage guide 分別指向不同模型或變體,硬件需求不能直接互換。
vLLM Recipes 將 Kimi K2.6 標示為 256K context;AllThingsHow 的 K2.6 INT4 vLLM 示例則設定 --max-model-len 131072 如果你測 131K context,不能直接推論 256K context 下的 VRAM、吞吐或延遲表現。
vLLM 的 Kimi K2-Instruct 示例包含 FP8 quantization 與 FP8 KV cache;AllThingsHow 的 K2.6 示例則使用 INT4 模型名稱。 量化方式、KV cache dtype、batch size、並發量一變,硬件需求和性能結果都會變。
vLLM K2-Instruct 示例使用 tensor parallel 與 pipeline parallel;AllThingsHow 的 K2.6 INT4 示例亦使用 --tensor-parallel-size 4 因此,測試報告應清楚記錄 tensor parallel、pipeline parallel、節點數和每節點 GPU 數,否則很難比較結果。
如果你打算投入 H100、H200、4090 或其他 GPU,最穩陣做法是先用目標模型版本、目標 context、目標並發量和目標 serving 框架做 PoC。現有可引用資料不足以支持「某幾張卡必定推得順」這類採購承諾。
Kimi K2.6 的實用結論很清楚:不一定要自架,因為已有 provider/API 路線;如果要自架,應由 Hugging Face 部署文件與 vLLM Recipes 入手,但不要把第三方硬件例子當成官方最低規格。
對採購或架構決策來說,最保守也最安全的答案是:把 Kimi K2.6 自架視為伺服器級多 GPU 項目,先做同版本、同量化、同 context、同並發的 PoC;在沒有官方最低 GPU/VRAM 數字前,不要直接承諾單卡、消費級 GPU 或某個固定 H100 卡數一定足夠。
Comments
0 comments