將 Kimi K2.6 放入正式環境(production),唔係「改個 model 名」咁簡單。依目前文件,最穩陣嘅起點係 Kimi Open Platform:佢提供 OpenAI-compatible HTTP API,可以直接用 OpenAI SDK,SDK 入面將 base_url 設成 https://api.moonshot.ai/v1;如果你直接打 HTTP endpoint,就用 https://api.moonshot.ai/v1/chat/completions。[14] Kimi 亦有 Kimi K2.6 專屬 quickstart,並將 K2.6 描述為多模態 model。[
4]
下面係一份偏 production 角度嘅接入指南:點樣揀路線、點樣寫 adapter、Cloudflare 幾時值得用,以及上線前要 check 邊幾個位。
先揀接入路線
| Production 需要 | 優先考慮路線 | 點解 |
|---|---|---|
| App 已經有 OpenAI SDK adapter 或 Chat Completions 層 | Kimi Open Platform | API 兼容 OpenAI;將 base_url 改成 https://api.moonshot.ai/v1,再用 /chat/completions。[ |
| 基建已經跑喺 Cloudflare | Cloudflare AI | Cloudflare Docs 已列出 model @cf/moonshotai/kimi-k2.6。[ |
| 已經用緊多 provider gateway | OpenRouter 或 SiliconFlow | OpenRouter 有 moonshotai/kimi-k2.6 quickstart,並表示會標準化不同 provider 嘅 request/response;SiliconFlow 亦有文章推介透過佢哋 API 使用 Kimi K2.6。[ |
| 需要 self-host 或 on-prem | 暫時唔好單靠現有資料拍板 | 目前資料只確認 Hugging Face repo 有 docs/deploy_guidance.md,但摘錄不足以確認硬件、serving stack 或 on-prem 運維流程。[ |
1. 用 Kimi Open Platform:最似「換 endpoint」嘅路線
如果你嘅 app 本身已經有 LLM adapter,例如一層負責呼叫 OpenAI Chat Completions,Kimi Open Platform 會係最直接嘅選擇。Kimi 文件講明,API 喺 request/response 格式上兼容 OpenAI Chat Completions,亦可以直接用 OpenAI SDK。[14]
基本 setup 流程係:建立 Moonshot API account、為帳戶加餘額,然後取得 API key;文件示例亦列出 endpoint https://api.moonshot.ai/v1/chat/completions。[2] 去到 production,API key 應該放入 secret manager 或環境變數,唔好硬編碼落 source code。
一個最小 Python adapter 可以保持 OpenAI SDK 風格:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ['MOONSHOT_API_KEY'],
base_url='https://api.moonshot.ai/v1',
)
completion = client.chat.completions.create(
model='PUT_KIMI_K2_6_MODEL_ID_FROM_KIMI_DOCS',
messages=[
{'role': 'system', 'content': '你係內部 workflow 嘅助手。'},
{'role': 'user', 'content': '請總結呢張 ticket,並建議下一步。'},
],
max_completion_tokens=1024,
)
print(completion.choices[0].message.content)重點係:唔好自己估 model ID。正式部署前,應該由 Kimi K2.6 quickstart 或 Kimi console 拿到準確 model ID,再放入配置。[4]
2. 幾時揀 Cloudflare?
如果你嘅 Worker、queue、edge workflow 或現有 AI route 已經喺 Cloudflare 生態入面,Cloudflare 會係值得評估嘅路線。Cloudflare Docs 直接列出 @cf/moonshotai/kimi-k2.6 呢個 model。[1]
Cloudflare 文件對呢個 model 展示咗幾類同 production 好有關嘅欄位,包括輸入 prompt、可生成 token 數量上限、要求嘅 output types,以及 chat completion 使用嘅 model。[1] 換句話講,上線時唔應該畀 agent 無限制咁跑;token budget、timeout、output policy 最好喺應用層先定清楚。
3. OpenRouter/SiliconFlow:適合已有 gateway 嘅團隊
OpenRouter 有 moonshotai/kimi-k2.6 API quickstart,並表示會幫你標準化不同 provider 之間嘅 request/response。[6] SiliconFlow 亦有文章介紹 Kimi K2.6,並呼籲開發者透過佢哋 API 使用。[
8]
第三方 gateway 嘅好處係集中 billing、routing、fallback 或 dashboard;但正式用之前,仍然要逐項核對 quota、logging、資料區域、retry、billing 同 SLA。呢啲細節唔應該靠估,因為本文所用資料未有完整確認每個 provider 嘅 production 條款。
Production checklist:唔好只測到第一個 response 就上線
1. API key、billing 同環境分層
寫 production code 前,先完成帳戶同付款基礎:建立 Moonshot API account、加餘額、取得 API key。[2] 之後要分開 local、staging、production 配置;用環境變數或 secret manager;如果 prompt 或輸入可能包含敏感資料,未有清晰留存政策前,唔好直接寫入 raw log。
2. Rate limit 同 token budget
Kimi 將 rate limit 分成四個指標:concurrency、RPM(每分鐘 request 數)、TPM(每分鐘 token 數)同 TPD(每日 token 數)。對 gateway 而言,如果 request 帶有 max_completion_tokens,Kimi 會用呢個參數去計 rate limit。[17]
呢點會直接影響架構設計。短 chat route、長報告生成 route、以及會 call tool 嘅 agent route,唔應該共用同一個 max_completion_tokens 預設值。比較穩陣嘅做法係每條 route 各自設定 output budget,先喺 staging 跑實測,再逐步加 traffic。
3. 處理被截斷嘅 output
Kimi FAQ 講明,如果輸出超過 max_completion_tokens,API 只會返回限制內嘅內容,超出部分會被丟棄,結果可能係內容不完整或被截斷,常見情況會見到 finish_reason=length。FAQ 亦提到可以用 Partial Mode 由截斷位置繼續生成。[23]
所以,app 唔應該將半截答案直接當完整結果展示。production code 至少要偵測 finish_reason=length,決定係咪要自動續寫、要求用戶確認,或者清楚標示內容未完成。
4. 成本要計 input,也要計 output
Kimi K2.6 pricing 頁面指出,價錢以每 1M token 計,並提醒稅項會按所在地區規定計算。[21] Kimi 一般 pricing 文件亦講明,Chat Completion API 會按 usage 收取 input 同 output;如果你上載文件、抽取內容,再將抽取結果放入 input,嗰部分亦會按 input 計費。[
19]
因此,production 成本估算唔可以只睇 output token。你要一併計 system prompt、對話歷史、retrieved context、文件抽取內容,以及最終生成嘅 output。尤其係長 context 或文件分析 workflow,只計答案長度通常會低估成本。
5. Agent/tool workflow 要先做 eval
Kimi benchmark best practices 提供咗多個有 tool 任務嘅 eval 設定例子,例如 ZeroBench w/ tools 用 max tokens 64k,AIME2025/HMMT2025 w/ tools 用 96k,Agentic Search Task 總 max tokens 256k。[13]
呢啲數字應該視為 benchmark 或壓力測試參考,而唔係所有 production request 嘅預設。內部 eval 最好抽自真實產品任務,例如 bug ticket、PR review、資料查詢、檔案分析,或者用戶實際會跑嘅 multi-step workflow。
6. Tool calling 要有權限、allowlist 同 audit
Kimi Playground 可以用嚟體驗 tool calling;文件指 Kimi Open Platform 提供官方支援工具,model 可以自行判斷是否需要 call tool,例子包括 Date/Time、Excel file analysis、Web search 同 Random number generation。[22]
Playground 適合做實驗同 debug;但 production 唔應該任由 model 打任何內部 API。建議至少設計 tool allowlist、按 user 或 tenant 分權、timeout、audit log,以及對有實際影響嘅操作加入確認流程。
Self-host/on-prem:目前證據未夠,不宜當 production 承諾
如果你嘅要求係資料唔可以離開自家基建,self-host 或 on-prem 會係重要議題。不過,依目前可見資料,只能確認 moonshotai/Kimi-K2.6 喺 Hugging Face repo 有 docs/deploy_guidance.md;摘錄內容未足以確認 GPU/VRAM 要求、serving framework、部署命令,或者 on-prem 運維 checklist。[3]
所以,基於本文資料,官方 API 同 Cloudflare 係文件化較清楚嘅兩條路線。[14][
1] Self-host 需要再核對完整部署文件、license 同 model card,先好向 stakeholder 承諾時程或成本。[
3]
一個精簡落地流程
- **揀路線:**想最快沿用 OpenAI 風格,就先睇 Kimi Open Platform;如果基建已經喺 Cloudflare,就評估
@cf/moonshotai/kimi-k2.6。[14][
1]
- **開 account 同 key:**建立 Moonshot API account、加餘額、取得 API key。[
2]
- **寫 adapter:**保留 Chat Completions interface,將
base_url改成https://api.moonshot.ai/v1。[14]
- **填準 model ID:**由 Kimi K2.6 quickstart 或 console 拿 ID,唔好靠猜。[
4]
- **設定 token budget:**按 route 控制
max_completion_tokens,並留意 concurrency、RPM、TPM、TPD。[17]
- **做成本模型:**同時計 input token 同 output token;文件抽取後放入 input 嘅內容都可能計入成本。[
19][
21]
- **處理長內容截斷:**監控
finish_reason=length,需要時設計續寫流程。[23]
- **先 eval,後開 agent:**用 Kimi benchmark best practices 做參考,再用產品真實任務校準。[
13]
- **鎖好 tool 權限:**tool calling 要有 allowlist、timeout、audit,同必要時嘅人手確認。[
22]
結論
對大多數 production app 來講,Kimi Open Platform 係最自然嘅起步:沿用 OpenAI SDK,將 base_url 改成 https://api.moonshot.ai/v1,再用 Chat Completions 方式接入。[14] 如果你嘅系統本身已經喺 Cloudflare,
@cf/moonshotai/kimi-k2.6 係 Cloudflare 已列出嘅另一條路線。[1] 至於 self-host/on-prem,現有資料未夠支持直接放入 production 計劃。[
3]
真正難嘅通常唔係第一個 API call,而係 token 上限、rate limit、成本、截斷輸出、eval 同 tool 權限。先將呢幾個位鎖好,再逐步加 traffic,Kimi K2.6 接入 production 先會穩陣。




