如果你手上已經有一台退役機架式伺服器或舊工作站,想把它改成本機 AI 推論機,最划算的做法通常不是追最新 GPU,而是先買到夠大的 VRAM。以目前二手市場來看,NVIDIA Tesla P40 24GB 是最常被拿來做低成本本機 LLM(大型語言模型)推論的選擇之一。
先講結論:買 VRAM,然後認真處理散熱
最便宜、也相對務實的升級路線是:
- 沿用現有伺服器或工作站,但先確認 PCIe 插槽、空間與電源餘裕。
- 買一張二手 NVIDIA Tesla P40 24GB。
- 替這張卡準備強制導風,例如鼓風扇、風道或 3D 列印導風罩。
- 安裝 Linux 伺服器系統、NVIDIA 驅動,以及 llama.cpp 這類本機推論工具。
- 跑可量化、能塞進 24GB VRAM 的模型。
這條路線之所以成立,是因為 Tesla P40 能用相對低的價格提供 24GB VRAM。近期指南把 P40 描述為低於 300 美元、或約 150–200 美元的二手 24GB 選項 [2][
5];CraftRigs 也把 P40 24GB 列為預算型本機 LLM 玩家可考慮的低於 200 美元選擇,同時把二手 A100 80GB 放在約 4,000–8,000 美元級距 [
4]。
但便宜不代表它新。Vast.ai 的資料列出 Tesla P40 發布日期為 2016 年 9 月 13 日,記憶體容量為 24GB [8]。換句話說,你買到的是一張老資料中心推論卡,而不是能和當代高階 GPU 正面比速度的新產品。
為什麼 P40 會成為低預算甜蜜點?
P40 最大的賣點只有一個:VRAM 容量夠大、價格夠低。
InsiderLLM 指出,P40 的 24GB VRAM 可以讓某些模型完全放進 GPU 中執行,而這些模型未必能塞進 12GB RTX 3060;同時它也提醒,P40 以現代標準來看速度偏慢,在其比較中約比 RTX 3090 慢 3 倍 [5]。
對家用實驗室或小型本機推論來說,這個取捨常常可以接受。聊天、程式助理、文件搜尋、學習與模型測試,很多時候先決條件是「模型放得下」。如果模型大量溢出到系統記憶體,體驗可能比使用一張舊但 VRAM 較大的卡更差。
P40 原本也不是一般遊戲顯卡。資料將它描述為早期為資料中心推論與虛擬化打造的 24GB 舊卡,如今因為每美元 VRAM 容量高,被本機 AI 玩家重新利用 [2]。
下單前一定要檢查的 5 件事
P40 本身便宜,但整台機器能不能穩定運作,取決於周邊條件。
1. PCIe 插槽與機殼空間
先確認伺服器是否有可用的 PCIe x16 插槽,或相容的 riser 配置。許多舊資料中心機器有特殊風罩、轉接板與緊湊內部空間,長卡不一定能順利安裝。
2. 電源供應與線材
InsiderLLM 列出 Tesla P40 的 TDP 為 250W [5]。因此,電源供應器與供電線材必須能承受負載。不能因為主機板上有 PCIe 插槽,就假設任何加速卡都能直接插上使用。
3. 散熱是重點,不只是「機殼有風」
散熱是 P40 改裝中最容易踩雷的地方。Accio 的 P40 概覽明確提到本機 LLM 使用上的「散熱挑戰」[2]。很多玩家會用專用鼓風扇、3D 列印風道,或有強力直通風流的伺服器機殼,讓氣流真正穿過 GPU 散熱器。
如果把這類資料中心卡塞進一般直立機殼,又沒有強制導風,結果可能是降頻、當機或溫度過高。買卡省下來的錢,最好留一部分給散熱。
4. 沒有螢幕輸出
不要把 P40 當成一般遊戲顯卡。二手 GPU 採購指南把 Tesla P40 列為 24GB 選項,並註明它沒有顯示輸出 [9]。你需要使用主機板內顯、另一張基本顯示卡,或直接採用無頭伺服器與遠端管理。
5. 軟體上要把它當推論卡
P40 最適合的角色是本機推論卡,而不是什麼都能跑的現代 AI 萬用卡。Accio 將 P40 的再度流行與本機 LLM 執行連結,並在 P40 家用實驗室情境中提到 llama.cpp [2]。實務上,你應該使用量化模型,並調整模型大小、上下文長度與 GPU offload 設定,而不是期待所有新模型都能全精度順跑。
效能期待:能用,但不是頂尖
對 P40 的期待應該是「有用」,不是「前沿」。InsiderLLM 形容 P40 以現代標準來看偏慢,但因價格低與 24GB VRAM 仍有價值 [5]。也有一位預算型本機 LLM 伺服器建置者回報,在特定配置中用 P40 跑 Qwen3 Coder 30B 約可達每秒 50 tokens [
10]。
不過,這類數字只能當個案參考。模型、量化方式、提示長度、驅動版本、CPU、散熱與電源都會影響吞吐量。P40 可以成為好用的本機推論卡,但它不適合嚴肅訓練、高吞吐量正式服務,或想要安靜即插即用桌機體驗的人。
什麼時候該改買 RTX 3090?
如果你還是想省錢,但不想處理太多伺服器卡的麻煩,二手 RTX 3090 24GB 會是更舒服的選項。InsiderLLM 的 2026 二手 GPU 指南列出 RTX 3090 為 24GB、二手約 700–850 美元;Tesla P40 同為 24GB,二手約 200–250 美元 [9]。
這個價差就是決策核心。P40 贏在入手成本最低;RTX 3090 則貴很多,但它是消費級顯卡,有 24GB VRAM,桌機整合、散熱與使用體驗通常更友善。InsiderLLM 的比較也把 P40 形容為約比 RTX 3090 慢 3 倍 [5]。
如果你在乎速度、噪音、散熱便利與相容性,選 RTX 3090。若預算非常緊,而且舊伺服器能處理供電與風流,P40 才是低成本答案。
A100 什麼時候才合理?
A100 是另一個預算世界。CraftRigs 將二手 A100 80GB 價格描述為約 4,000–8,000 美元 [4];JarvisLabs 的 2026 價格指南則列出二手 A100 80GB 約 4,000–9,000 美元,新卡約 7,000–15,000 美元 [
3]。GPUVec 也列出 A100 有 40GB 與 80GB VRAM 版本 [
7]。
額外 VRAM 對大型模型、更重的服務負載或更嚴肅的實驗當然有價值。但如果目標是把舊硬體用最低成本救回來,A100 通常已經偏離題目。它屬於「有正式預算」的方案,不是「便宜改裝」方案。
依目標選卡
| 目標 | 最適合選項 | 原因 |
|---|---|---|
| 最便宜的可用本機 LLM 機 | 二手 Tesla P40 24GB | 最低成本取得 24GB VRAM 的路線,常見報價被列在約 150–250 美元或低於 300 美元 [ |
| 更快、更省心的 24GB 桌機方案 | 二手 RTX 3090 24GB | 價格較高,但同樣有 24GB VRAM,且作為消費級卡更容易整合 [ |
| 有預算的大模型推論 | 二手 A100 40GB/80GB | VRAM 更大,但 A100 80GB 二手價被列在數千美元級距 [ |
最後判斷
如果你追求的是「最低成本讓舊伺服器能跑本機 AI」,二手 Tesla P40 24GB 加上可靠散熱,是最值得先看的方案。它的吸引力不是速度,而是用新一代 24GB 顯卡難以匹敵的價格,取得足以支撐本機 LLM 推論的 VRAM [5][
9]。
如果你想要同樣 24GB、但使用體驗更順,二手 RTX 3090 更適合。至於 A100,除非你真的需要 A100 級別的記憶體與部署能力,否則就不該把它放進「便宜升級舊伺服器」的預算裡。





