如果你手上已經有一部舊機架式伺服器(rack server)或者退役工作站,想將佢變成本地 AI 推理機,最抵玩的方向未必係追最新 GPU。更實際係:買夠 VRAM,然後搞掂散熱。
喺目前二手市場,NVIDIA Tesla P40 24GB 係最突出嘅低成本選擇。多個近期指南都將 P40 形容為低於 US$300、甚至大約 US$150–US$200 的 24GB 本地 LLM 選項 [2][
5]。CraftRigs 亦將 P40 24GB 放喺低於 US$200 的預算級本地 LLM 卡,而二手 A100 80GB 就大約係 US$4,000–US$8,000 呢個級別 [
4]。
不過,平有平嘅代價。P40 係舊資料中心卡,Vast.ai 的資料列出 Tesla P40 發佈日期為 2016 年 9 月 13 日,記憶體容量為 24GB [8]。你應該將佢當成一張「因為舊所以平」嘅資料中心推理加速卡,而唔係一張可以同現代高階 GPU 正面硬撼嘅新玩具。
一句講晒:先買 VRAM,再搞風道
最平實用方案大致係:
- 保留現有舊 server,只要佢有可用 PCIe 插槽、放得落張卡,而且電源有餘量。
- 買一張二手 NVIDIA Tesla P40 24GB。
- 為張卡加強制風冷,例如 blower、風扇導風罩,或者用本身有強風道嘅伺服器機箱。
- 裝 Linux server OS、NVIDIA driver,再用 llama.cpp 等本地推理工具。
- 跑量化模型,令模型盡量放入 24GB VRAM 入面。
呢條路線之所以可行,核心就係 VRAM。對本地大型語言模型(LLM)推理嚟講,模型放唔放得入 GPU 記憶體,往往比 GPU 新唔新更加影響體驗。InsiderLLM 指出,P40 的 24GB VRAM 可以令部分模型完整放喺 GPU 上執行,而呢啲模型未必放得入 12GB RTX 3060;同時佢亦指出 P40 以現代標準嚟講偏慢,對比中約慢過 RTX 3090 三倍 [5]。
點解 P40 會成為預算甜蜜點?
P40 最大優勢唔係速度,而係「每美元買到幾多 VRAM」。Accio 將 P40 描述為一張 24GB Pascal 架構 GPU,原本為資料中心推理同虛擬化而設計,近年因為 24GB VRAM 對本地 LLM 玩家有吸引力而被重新利用 [2]。
如果你用途係聊天機械人、coding assistant、文件搜尋、測試模型、學習部署,本地推理未必需要最強算力。相反,如果模型大量溢出到系統 RAM,成個體驗可以即刻變得好慢。呢個時候,一張舊但有 24GB VRAM 嘅卡,可能比一張新但 VRAM 細嘅卡更實用。
當然,P40 唔係桌面遊戲卡。佢係資料中心卡,買之前要接受幾件事:佢熱、唔係即插即玩、好多時要自己諗散熱方案,而且唔適合追求安靜桌面體驗。
落單前先睇呢張 checklist
P40 本身平,但周邊條件唔啱,成部機一樣可以變成麻煩。買之前至少要檢查以下幾點。
1. PCIe 插槽同機箱空間
先確認部 server 有 PCIe x16 插槽,或者有兼容嘅 riser 配置。好多舊資料中心機有導風罩、riser、短身或密集布局,未必輕鬆放得落全長 GPU。
2. 供電餘量
InsiderLLM 將 Tesla P40 的 TDP 列為 250W [5]。換句話講,唔好見到有 PCIe slot 就以為一定得;你要確定電源供應器、線材同接頭可以承受長時間負載。
3. 散熱唔係「機箱有風扇」就算
P40 最大實戰伏位就係散熱。Accio 的 P40 概覽明確提到本地 LLM 使用時有 cooling challenges [2]。好多 homelab 裝法都要加專用 blower、3D 打印風道,或者靠伺服器機箱本身嘅強定向氣流,先可以令空氣真正穿過 GPU 散熱器。
如果你將一張資料中心取向、依賴強風道嘅卡塞入普通 tower,而又冇額外導風,結果可能係降頻、過熱、甚至唔穩定。買平卡慳到嘅錢,至少要留一部分俾散熱。
4. 冇顯示輸出
唔好當 P40 係普通 gaming GPU。InsiderLLM 的二手 GPU 指南列出 Tesla P40 係 24GB 選項,同時註明 no display out [9]。你要預先安排主機板顯示、另一張基本顯示卡,或者完全 headless 用 SSH / remote access 管理。
5. 軟件期望要現實
P40 最啱定位係推理卡,而唔係訓練卡。Accio 將 P40 重新流行同本地 LLM 執行連起嚟,並提到 llama.cpp 相關使用情境 [2]。實際上你會經常要調整模型大小、量化格式、context length、GPU offload 設定,而唔係每個新模型都可以全精度照跑。
性能應該點預期?
用一句講:夠用,但唔前沿。
InsiderLLM 形容 P40 以現代標準嚟講偏慢,但因為價錢低同有 24GB VRAM,所以仍然有價值 [5]。有一位預算本地 LLM server 建置者分享,佢用 P40 跑 Qwen3 Coder 30B,在其特定設定下大約有每秒 50 tokens 的速度 [
10]。
不過,呢個只可以當個案參考,唔係通用 benchmark。模型、量化方式、prompt 長度、driver、CPU、散熱、GPU offload 設定,都會影響速度。P40 合理期待係:可以做本地推理工作流、可以學部署、可以玩模型;但唔適合嚴肅訓練、高吞吐生產 serving,亦唔適合想要安靜、無腦、即插即用桌面體驗嘅人。
幾時應該揀 RTX 3090?
如果你仍然想慳錢,但想少啲折騰,二手 RTX 3090 24GB 會係更舒服嘅選擇。InsiderLLM 的 2026 二手 GPU 指南列出 RTX 3090 24GB 二手價約 US$700–US$850,而 Tesla P40 24GB 約 US$200–US$250 [9]。
呢個價差就係成個決定。P40 贏在入場費最低;RTX 3090 貴好多,但佢係消費級顯示卡,有 24GB VRAM,桌面整合通常簡單啲,散熱同使用體驗都更接近一般 PC。InsiderLLM 的 P40 對比亦將 P40 描述為大約慢過 RTX 3090 三倍 [5]。
如果你重視速度、噪音、易散熱、少兼容麻煩,揀 RTX 3090。若果預算真係緊,而且你部舊 server 可以處理供電同風道,先揀 P40。
A100 幾時先有意思?
A100 係另一個預算世界。CraftRigs 指出二手 A100 80GB 約 US$4,000–US$8,000 [4];JarvisLabs 的 2026 價格指南就指 A100 80GB 二手約 US$4,000–US$9,000,新卡約 US$7,000–US$15,000 [
3]。GPUVec 亦列出 A100 有 40GB 同 80GB VRAM 版本 [
7]。
多出嚟嘅記憶體當然有用,尤其係要跑更大模型、更重 serving,或者做更認真嘅實驗。但如果目標係「用舊硬件平價翻生」,A100 多數已經偏離題目。佢屬於 serious budget,而唔係 cheap homelab rescue。
按目標揀卡
| 目標 | 最合適選擇 | 點解 |
|---|---|---|
| 最平但可用嘅本地 LLM 機 | 二手 Tesla P40 24GB | 最低成本買到 24GB VRAM;近期資料常見約 US$150–US$250 或低於 US$300 二手價 [ |
| 較易用、較快嘅 24GB 方案 | 二手 RTX 3090 24GB | 貴好多,但係消費級 24GB 卡,桌面整合同性能期望更好 [ |
| 大模型推理、有認真預算 | 二手 A100 40GB / 80GB | VRAM 大得多,但 A100 80GB 二手價通常係幾千美元級別 [ |
結論:P40 係平玩本地 AI,唔係平買旗艦體驗
如果你要用最少錢將舊 server 變成本地 AI 推理機,二手 Tesla P40 24GB 仍然係好有吸引力嘅選擇。佢嘅賣點唔係快,而係 24GB VRAM 令好多本地 LLM 推理工作變得可行,而且價錢通常比新一代 24GB GPU 低得多 [5][
9]。
但買之前要記住:P40 需要供電、需要強制風冷、冇顯示輸出,亦唔會畀你現代高階 GPU 嘅速度。如果你想同樣有 24GB,但想用得舒服啲,二手 RTX 3090 會更啱。至於 A100,如果你真係需要嗰種記憶體容量,就應該重新做預算,而唔好再當成「平價升級」。





