如果你手里已经有一台还能开机的退役机架服务器或旧工作站,最低成本的本地 AI 升级思路通常不是追新卡,而是把它改造成一台推理机:用一张二手 NVIDIA Tesla P40 24GB 换来足够显存,再认真解决散热。
一句话结论:先买显存,再补风道
对本地大模型推理来说,最省钱的路线通常是:
- 保留现有服务器,前提是它有可用的 PCIe 插槽、足够空间和电源余量。
- 加一张二手 NVIDIA Tesla P40 24GB。
- 给这张卡准备真正的强制风冷,而不是只靠机箱顺便吹一下。
- 安装 Linux 服务器系统、NVIDIA 驱动,以及 llama.cpp 这类本地推理工具链。
- 运行能放进 24GB 显存的量化模型。
关键在于:本地 LLM 推理常常先被显存卡住。P40 的优势不是新,而是 24GB 显存在二手市场上的入手门槛低;近期资料把它描述为低于 300 美元,或约 150—200 美元的二手 24GB 选择 [2][
5]。CraftRigs 也将 P40 24GB 称为 200 美元以内的预算型选择,同时把二手 A100 80GB 放在 4,000—8,000 美元区间 [
4]。
但要先把预期摆正:P40 不是现代高端卡。Vast.ai 的信息列出 Tesla P40 的发布日期为 2016 年 9 月 13 日,显存为 24GB [8]。它便宜,是因为它是老数据中心推理卡;不是因为它能和当前高端 GPU 正面比速度。
为什么偏偏是 Tesla P40?
P40 的核心卖点只有一个:显存容量。InsiderLLM 的指南认为,24GB 显存可以让它把部分模型完整放进 GPU,而这些模型未必能装进 12GB 的 RTX 3060;同一对比也提醒,P40 按现代标准已经偏慢,并称其约比 RTX 3090 慢 3 倍 [5]。
这正是它适合家用实验室和旧服务器改造的原因:聊天、代码助手、文档检索、模型试验和学习场景里,能不能把模型塞进显存,往往比架构新不新更先决定体验。如果模型大量溢出到系统内存,实际交互可能比一张老但显存更大的卡更难受。
另外,P40 是数据中心卡,不是普通游戏显卡。资料将它描述为最初面向数据中心推理和虚拟化的 24GB 老卡,如今因为每美元显存容量高,被本地 AI 玩家重新利用 [2]。
下单前先检查这 5 件事
二手 P40 本身便宜,但能不能好用,主要看宿主机条件。
1. PCIe 插槽和物理空间
确认机器有 PCIe x16 插槽,或能通过兼容的转接/转接背板安装。很多老服务器有立式/横向转接卡、导风罩和紧凑布局,卡长、卡高、供电线走向都可能成为问题。
2. 电源余量
InsiderLLM 列出的 Tesla P40 TDP 为 250W [5]。这意味着电源、供电线和机箱散热都要按满载情况考虑。不要因为机器有 PCIe 槽,就默认它能稳稳带动任何加速卡。
3. 散热,不只是机箱风扇
散热是 P40 改造里最容易翻车的地方。Accio 的 P40 概览明确提到本地 LLM 使用中的“散热挑战” [2]。常见补救办法包括独立涡轮风扇、3D 打印风道,或直接使用能把强风定向吹过 GPU 的服务器机箱。
如果把一张面向数据中心风道的卡塞进普通塔式机箱,只靠旁边风扇顺带吹风,它可能降频、过热,甚至不稳定。预算里一定要给风道和风扇留位置。
4. 没有显示输出
不要把 P40 当游戏卡买。二手 GPU 购买指南把 Tesla P40 列为 24GB 选项,并注明它“no display out”,也就是没有显示输出 [9]。你需要使用主板核显、另一张低端显示卡,或直接走无头服务器/远程登录。
5. 软件预期
P40 更适合当推理卡看待。Accio 将它的重新走红与本地 LLM 运行联系起来,并在 P40 家用实验室语境中提到 llama.cpp [2]。实际使用时,要优先考虑量化模型,并调整模型大小、上下文长度和 GPU offload 设置,而不是指望所有新模型都能全精度流畅运行。
性能预期:能用,不是顶尖
对 P40 最合理的期待是“有用”,不是“领先”。InsiderLLM 形容它按现代标准较慢,但仍因低价和 24GB 显存有价值 [5]。一位搭建预算型本地 LLM 服务器的作者曾报告,在其特定配置中,P40 跑 Qwen3 Coder 30B 约为每秒 50 tokens [
10]。
这个数字只能当案例看,不能当通用基准。模型类型、量化方式、提示长度、驱动、CPU、内存和散热都会影响吞吐。配置得当时,P40 可以胜任不少本地推理工作流;但它不适合严肃训练、高吞吐生产服务,也不适合想要安静、即插即用桌面体验的人。
什么时候该买 RTX 3090?
如果目标仍是“相对便宜”,但你愿意为省心和速度多花钱,二手 RTX 3090 24GB 更舒服。InsiderLLM 的 2026 二手 GPU 指南将 RTX 3090 24GB 的二手价格列为约 700—850 美元,同时将 Tesla P40 24GB 列为约 200—250 美元 [9]。
差价就是选择题本身。P40 赢在最低初始成本;RTX 3090 更贵,但它是消费级 24GB 显卡,桌面安装、散热和性能预期都更友好。InsiderLLM 的 P40 对比还称,P40 约比 RTX 3090 慢 3 倍 [5]。
如果你在意速度、噪音、普通机箱散热和兼容性,优先看 RTX 3090。只有当预算非常紧,而且旧服务器确实能解决供电和风道时,P40 才是更划算的“捡漏”路线。
A100 什么时候才有意义?
A100 是另一档预算。CraftRigs 称二手 A100 80GB 大约在 4,000—8,000 美元 [4];JarvisLabs 的 2026 价格指南则给出 A100 80GB 二手约 4,000—9,000 美元、新卡约 7,000—15,000 美元的区间 [
3]。GPUVec 也列出 A100 有 40GB 和 80GB 两种显存版本 [
7]。
如果你需要更大模型、更重的并发服务或更严肃的实验,A100 的显存当然有意义。但如果目标只是低成本拯救一台旧服务器,A100 通常已经偏离了“便宜升级”的初衷。
按目标选卡
| 目标 | 更合适的选择 | 原因 |
|---|---|---|
| 最低成本做一台能用的本地 LLM 机器 | 二手 Tesla P40 24GB | 以最低前期投入拿到 24GB 显存;资料常见报价约 150—250 美元,或低于 300 美元 [ |
| 想要更快、更省心的 24GB 方案 | 二手 RTX 3090 24GB | 价格更高,但仍是消费级 24GB 显卡,桌面使用体验更顺 [ |
| 有严肃预算,跑更大模型/更重服务 | 二手 A100 40GB/80GB | 显存更大,但 A100 80GB 二手价格通常是数千美元级别 [ |
最后怎么选?
如果你的核心诉求是“花最少的钱,让旧服务器跑起本地大模型推理”,二手 Tesla P40 24GB 仍是很有吸引力的选择。它的价值不在原始速度,而在于 24GB 显存能以较低成本打开本地 LLM 推理的大门 [5][
9]。
如果你想要同样 24GB 显存,但希望更安静、更快、更像普通桌面显卡,买二手 RTX 3090。若你已经需要 A100 级别的显存,那就别再按“低价升级”规划了——预算、机箱、电源和散热都要按更高一档重新设计。





