古いラックサーバーや退役ワークステーションが手元にあるなら、ローカルAI化の近道は最新GPUを追いかけることではありません。まず見るべきはVRAM(GPUメモリ)です。中古のNVIDIA Tesla P40 24GBは、安価に24GBを確保したい人にとって、いまでも現実的な候補です。
まず結論:VRAMを買い、冷却に予算を残す
ローカルLLM(手元のPCやサーバーで動かす大規模言語モデル)用途で、最安寄りの構成は次の流れです。
- 既存サーバーに使えるPCIeスロット、物理スペース、電源の余裕があるか確認する。
- 中古のNVIDIA Tesla P40 24GBを追加する。
- GPUに強い風を通す冷却を用意する。
- Linux系サーバーOS、NVIDIAドライバー、llama.cppなどの推論スタックを入れる [
2]。
- VRAMに収まる量子化モデルを動かす。
理由は単純です。Tesla P40は、最近のガイドで$150〜$200程度、または$300未満の24GB GPU候補として紹介されています [2][
5]。CraftRigsもP40 24GBを$200未満の選択肢として挙げる一方、中古A100 80GBは$4,000〜$8,000の価格帯に置いています [
4]。さらに別の中古GPUガイドでは、P40 24GBが$200〜$250、RTX 3090 24GBが$700〜$850とされています [
9]。
ただし、P40は現代的な新型GPUではありません。Vast.aiの掲載情報では、Tesla P40のリリース日は2016年9月13日、メモリ容量は24GBです [8]。安い理由は、最新ハイエンドGPUと競えるからではなく、古いデータセンター向け推論アクセラレータだからです。
なぜP40が「安いローカルAI」の候補になるのか
P40の強みは、演算性能よりメモリ容量です。InsiderLLMは、P40の24GB VRAMなら12GBのRTX 3060に収まらない一部モデルをGPU上で完結して動かせると説明しつつ、速度は現代基準では遅く、比較ではRTX 3090よりおよそ3倍遅いとも述べています [5]。
ローカル推論では、モデルがVRAMに収まるかどうかが体感を大きく左右します。チャット、コード補助、文書検索、学習用の実験なら、最新世代の速さより「載ること」が効く場面があります。
またP40はゲーム用GPUではなく、もともとデータセンターの推論や仮想化向けに作られた24GBカードで、現在はVRAM単価の良さからローカルAI愛好家に再利用されています [2]。
買う前のチェックリスト
1. PCIeスロットと物理的な収まり
PCIe x16スロット、または対応するライザー構成があるか確認します。古いサーバーは内部のダクト、ライザー、スロット間隔が独特なことがあり、カードが長さや厚みの面で入らない場合があります。
2. 電源の余裕
InsiderLLMはTesla P40のTDPを250Wとしています [5]。PCIeスロットがあるからといって、どのアクセラレータでも動くとは限りません。電源容量、補助電源ケーブル、サーバー側の給電仕様を事前に見ておくべきです。
3. ケースファン任せにしない冷却
いちばん詰まりやすいのは冷却です。AccioのP40概説は、ローカルLLM用途での「冷却課題」を明示しています [2]。
P40のようなデータセンター向けカードは、サーバー筐体の強い前後エアフローを前提にしている場合があります。タワーケースに入れるなら、専用ブロワー、ファンダクト、3DプリントのシュラウドなどでGPUに直接風を通す発想が必要です。カード本体が安くても、ここを雑にするとサーマルスロットリングや不安定動作の原因になります。
4. 画面出力は期待しない
P40をゲーミングGPUのように使う前提で買ってはいけません。中古GPUガイドはTesla P40を24GB候補として挙げつつ、映像出力がないことを明記しています [9]。マザーボード側の映像出力、別の安価な表示用GPU、またはSSHなどのリモート運用を前提にしましょう。
5. ソフトウェアは「推論用」と割り切る
P40は、学習用の万能カードというより推論用カードとして見るのが自然です。AccioはP40の再評価をローカルLLM実行と結びつけ、llama.cppでの利用にも触れています [2]。フル精度で何でも動かすのではなく、量子化モデル、コンテキスト長、GPUオフロード設定を調整しながら使う前提です。
性能の期待値:速いというより「使える」
期待すべきなのは「最先端」ではなく「実用になる」レベルです。InsiderLLMはP40を現代基準では遅いが、低価格と24GB VRAMの価値があるカードとして位置づけています [5]。
実例として、あるビルダーはP40を使った予算重視のローカルLLMサーバーで、Qwen3 Coder 30Bを約50トークン/秒で動かしたと報告しています [10]。ただし、これはその環境での一例です。モデル、量子化方式、プロンプト長、CPU、ドライバー、冷却でスループットは変わります。
P40は、うまく組めばローカル推論の作業箱として十分に役立ちます。一方で、本格的な学習、高スループットの本番配信、静かで手間のないデスクトップ体験を求める人には向きません。
RTX 3090にしたほうがいい人
「安く24GBがほしい」が、手間や遅さは減らしたい。そういう人には中古RTX 3090 24GBのほうが気持ちよく使えます。InsiderLLMの中古GPUガイドでは、RTX 3090 24GBが$700〜$850、Tesla P40 24GBが$200〜$250とされています [9]。
この価格差が判断の分かれ目です。P40は初期費用の安さで勝ちます。RTX 3090は高いものの、一般的なPCに組み込みやすいコンシューマーGPUで、24GB VRAMを持ち、性能面の期待値もずっと高くなります。P40はRTX 3090よりおよそ3倍遅いとする比較もあります [5]。
速度、静音性、冷却のしやすさ、互換性の悩みを減らしたいならRTX 3090。予算が厳しく、手持ちのサーバーで電源と冷却を確保できるならP40、という分け方です。
A100が候補になるのは別予算
A100は、P40やRTX 3090とは予算の桁が違います。CraftRigsは中古A100 80GBをおよそ$4,000〜$8,000とし [4]、JarvisLabsも2026年の価格ガイドでA100 80GBを中古$4,000〜$9,000、新品$7,000〜$15,000としています [
3]。GPUVecはA100に40GB版と80GB版があると整理しています [
7]。
大きなモデル、重い推論、より本格的な実験には、その追加VRAMが効きます。しかし、古いハードウェアを安く再生するという目的なら、A100はたいてい予算オーバーです。「格安ホームラボ救済」ではなく、「本気のローカルAI投資」と考えるべきです。
目的別のおすすめ
| 目的 | 向いているGPU | 理由 |
|---|---|---|
| 最安でローカルLLM箱を作る | 中古Tesla P40 24GB | 24GB VRAMを最小コストで狙える。出典では$150〜$250前後、または$300未満の候補として扱われています [ |
| 24GBをもっと快適に使う | 中古RTX 3090 24GB | P40より高いが、24GB VRAMを持つコンシューマーGPUで、導入と性能のバランスが良い [ |
| 大きなモデルを本気で回す | 中古A100 40GB/80GB | VRAM容量は大きいが、A100 80GBの中古価格は数千ドル規模です [ |
まとめ
最小コストで古いサーバーをローカルAI用に再生するなら、中古Tesla P40 24GBを載せ、浮いた予算を冷却と電源の安定性に回すのが現実的です。P40の魅力は生の速さではありません。新しい24GB GPUでは届きにくい価格で、ローカルLLMに重要な24GB VRAMを確保できることです [5][
9]。
同じ24GBでも、快適さを重視するなら中古RTX 3090。A100級のメモリが必要なら、もはや「格安アップグレード」ではなく、数千ドル規模の別予算として考えましょう。





