낡은 랙 서버나 퇴역 워크스테이션이 이미 있다면, 로컬 AI 업그레이드의 출발점은 최신 GPU가 아닙니다. 핵심은 “얼마나 싸게 VRAM을 확보하느냐”입니다. 그 기준에서 지금 중고 시장에서 가장 눈에 띄는 선택지는 NVIDIA Tesla P40 24GB입니다.
P40은 최신 카드가 아닙니다. Vast.ai의 GPU 정보에는 Tesla P40의 출시일이 2016년 9월 13일, 메모리 용량이 24GB로 기록돼 있습니다 [8]. 즉, 싸기 때문에 좋은 카드라기보다 오래된 데이터센터용 추론 가속기가 중고 시장에서 저렴해졌고, 그 24GB VRAM이 로컬 LLM 추론에 다시 쓸모를 얻은 경우에 가깝습니다.
결론부터: VRAM을 싸게 사고, 냉각을 제대로 해결하라
로컬 LLM, 즉 대규모 언어 모델을 내 PC나 서버에서 직접 돌리는 용도라면 가장 저렴한 현실적 경로는 대체로 이렇습니다.
- 기존 서버에 쓸 만한 PCIe 슬롯, 물리적 공간, 전원 여유가 있는지 확인합니다.
- 중고 NVIDIA Tesla P40 24GB를 장착합니다.
- 카드에 직접 바람을 밀어 넣는 강제 냉각을 준비합니다.
- 리눅스 서버 OS, NVIDIA 드라이버, llama.cpp 같은 로컬 추론 스택을 설치합니다.
- 24GB VRAM 안에 들어가는 양자화 모델을 골라 돌립니다.
이 구성이 통하는 이유는 단순합니다. P40은 24GB VRAM을 갖춘 카드인데, 최근 가이드들은 이를 150200달러대 또는 300달러 미만의 중고 24GB 선택지로 설명합니다 [8,000달러 수준으로 분리해 설명합니다 [2][
5]. CraftRigs도 예산이 빠듯한 로컬 LLM 빌더에게 P40 24GB를 200달러 미만 선택지로 언급하면서, 중고 A100 80GB는 4,000
4].
다만 실제 구매가는 지역, 배송비, 매물 상태, 보증 여부에 따라 달라질 수 있습니다. 중요한 것은 P40의 본질이 “저렴한 24GB VRAM”이라는 점이지, 최신 고성능 GPU와 정면 승부하는 카드가 아니라는 점입니다.
왜 하필 Tesla P40인가
P40의 장점은 속도가 아니라 메모리 용량입니다. InsiderLLM의 비교는 P40의 24GB VRAM 덕분에 12GB RTX 3060에는 전부 올리기 어려운 일부 모델을 GPU 안에서 실행할 수 있다고 설명합니다. 동시에 P40은 현대 기준으로 느리며, 해당 비교에서는 RTX 3090보다 대략 3배 느린 것으로 다뤄집니다 [5].
로컬 AI 서버에서는 이 절충이 생각보다 중요합니다. 챗봇, 코딩 보조, 문서 검색, 실험용 LLM처럼 “혼자 쓰는 추론 서버”라면 최고 속도보다 모델이 VRAM 안에 들어가는지가 더 체감될 때가 많습니다. 모델이 GPU 메모리를 벗어나 시스템 RAM에 크게 의존하면, 새 아키텍처의 작은 VRAM 카드보다 오래됐지만 VRAM이 큰 카드가 더 나은 경험을 줄 수 있습니다.
또 P40은 일반 게이밍 GPU가 아니라 데이터센터용 카드입니다. 자료들은 P40을 원래 데이터센터 추론과 가상화용으로 설계된 24GB 카드로 설명하며, 지금은 VRAM 대비 가격 장점 때문에 로컬 AI 취미 사용자들이 재활용하는 사례가 많다고 봅니다 [2].
사기 전에 확인할 체크리스트
카드 가격만 보고 바로 주문하면 곤란합니다. P40 빌드의 성공 여부는 GPU 자체보다 주변 조건에서 갈리는 경우가 많습니다.
1. PCIe 슬롯과 물리적 공간
서버에 PCIe x16 슬롯 또는 호환 가능한 라이저 구성이 있는지 확인해야 합니다. 낡은 랙 서버는 라이저, 공기 흐름 덕트, 케이스 구조 때문에 풀사이즈 GPU 장착이 생각보다 까다로울 수 있습니다. 카드 길이, 슬롯 위치, 보조전원 케이블 방향까지 미리 봐야 합니다.
2. 전원 여유
InsiderLLM은 Tesla P40의 TDP를 250W로 제시합니다 [5]. TDP는 대략적인 열설계전력으로, 실제 빌드에서는 파워서플라이 용량과 보조전원 케이블 구성이 이를 감당해야 합니다. PCIe 슬롯이 있다고 해서 모든 서버가 GPU 가속기를 안정적으로 받아주는 것은 아닙니다.
3. 케이스 팬이 아니라 ‘직접 냉각’
P40에서 가장 큰 함정은 냉각입니다. Accio의 2026년 P40 개요도 로컬 LLM 사용에서 냉각 문제가 주요 과제라고 짚습니다 [2]. 많은 홈랩 빌드에서는 전용 블로워 팬, 3D 프린트 덕트, 또는 GPU를 관통하는 강한 직선형 풍량이 있는 서버 섀시가 필요합니다.
일반 타워 케이스에 데이터센터용 카드를 꽂고 “케이스 팬이 있으니 괜찮겠지”라고 생각하면 쓰로틀링, 불안정, 과열을 겪을 수 있습니다. P40을 싸게 샀다면 절약한 돈의 일부는 냉각에 써야 합니다.
4. 모니터 출력 없음
P40은 게임용 그래픽카드처럼 모니터를 꽂아 쓰는 카드가 아닙니다. 중고 GPU 구매 가이드는 Tesla P40을 24GB 선택지로 소개하면서도 “디스플레이 출력 없음”을 명시합니다 [9]. 메인보드 내장 그래픽, 별도 저가 출력용 카드, 또는 원격 접속 환경을 따로 준비해야 합니다.
5. 소프트웨어 기대치
P40은 학습용 만능 GPU라기보다 추론용 카드로 보는 편이 맞습니다. Accio는 P40의 재부상을 로컬 LLM 실행과 연결하며, P40 홈랩 사용 맥락에서 llama.cpp를 언급합니다 [2]. 따라서 모든 최신 모델을 풀프리시전으로 돌리겠다는 기대보다는, 양자화 모델을 고르고 모델 크기·컨텍스트 길이·GPU 오프로딩 설정을 조정하는 방식이 현실적입니다.
성능은 어느 정도로 봐야 하나
기대치는 “쓸 만함”이지 “최첨단”이 아닙니다. InsiderLLM은 P40이 현대 기준으로 느리지만, 낮은 가격과 24GB VRAM 때문에 여전히 가치가 있다고 설명합니다 [5]. 한 빌더는 예산형 로컬 LLM 서버에서 P40으로 Qwen3 Coder 30B를 돌려 특정 구성에서 초당 약 50토큰을 기록했다고 보고했습니다 [
10].
다만 이 수치는 보편적인 벤치마크가 아니라 사례로 봐야 합니다. 모델 종류, 양자화 방식, 프롬프트 길이, 드라이버, CPU, 냉각 상태에 따라 처리량은 크게 달라질 수 있습니다. P40은 제대로 구성하면 개인용 로컬 추론 워크플로에는 충분히 의미가 있지만, 본격 학습, 고처리량 상용 서빙, 조용한 데스크톱용 플러그앤플레이 경험을 원하는 사용자에게는 맞지 않습니다.
돈을 더 쓸 수 있다면 RTX 3090이 더 편하다
여전히 중고를 찾되 사용 편의성과 속도를 중시한다면 RTX 3090 24GB가 더 자연스러운 선택입니다. InsiderLLM의 2026년 중고 GPU 가이드는 RTX 3090 24GB의 중고가를 700850달러, Tesla P40 24GB를 200250달러로 제시합니다 [9].
이 가격 차이가 곧 선택 기준입니다. P40은 초기 비용이 가장 낮습니다. RTX 3090은 훨씬 비싸지만, 24GB VRAM을 갖춘 소비자용 GPU라 데스크톱 통합이 쉽고, 냉각과 호환성 면에서도 부담이 덜합니다. InsiderLLM의 P40 비교는 P40을 RTX 3090보다 대략 3배 느린 카드로 설명합니다 [5].
속도, 소음, 냉각 편의, 호환성 스트레스를 줄이고 싶다면 RTX 3090 쪽이 낫습니다. 예산이 빠듯하고 기존 서버가 전원과 냉각을 감당할 수 있다면 P40이 더 싸게 목적을 달성합니다.
A100은 ‘저렴한 업그레이드’가 아니다
A100은 완전히 다른 예산대의 카드입니다. CraftRigs는 중고 A100 80GB를 약 4,0008,000달러 범위로 설명하고 [15,000달러, 중고 4,000~9,000달러 수준으로 제시합니다 [4], JarvisLabs의 2026년 가격 가이드는 A100 80GB를 신품 7,000
3]. GPUVec은 A100이 40GB와 80GB VRAM 구성으로 제공된다고 정리합니다 [
7].
큰 모델, 더 무거운 서빙, 본격적인 실험에는 A100급 메모리가 의미가 있습니다. 하지만 오래된 서버를 싸게 살리는 목적이라면 A100은 대개 방향이 다릅니다. “홈랩 구조조정”이 아니라 “진지한 예산의 AI 서버” 범주로 봐야 합니다.
목적별 추천 요약
| 목적 | 추천 GPU | 이유 |
|---|---|---|
| 가장 싼 로컬 LLM 추론 박스 | 중고 Tesla P40 24GB | 24GB VRAM을 가장 낮은 비용으로 확보하는 경로로 자주 언급되며, 최근 가이드들은 150~250달러대 또는 300달러 미만 선택지로 설명합니다 [ |
| 더 빠르고 편한 24GB 구성 | 중고 RTX 3090 24GB | 더 비싸지만 24GB VRAM을 갖춘 소비자용 GPU라 데스크톱 사용과 냉각, 성능 기대치가 더 편합니다 [ |
| 큰 모델과 본격 예산 | 중고 A100 40GB/80GB | VRAM은 훨씬 크지만, A100 80GB 중고 가격은 수천 달러대로 보고됩니다 [ |
최종 판단
가장 적은 돈으로 낡은 서버를 로컬 AI 추론 박스로 바꾸고 싶다면, 중고 Tesla P40 24GB는 여전히 강력한 후보입니다. 이 카드의 매력은 원시 성능이 아니라 24GB VRAM을 매우 낮은 비용으로 확보할 수 있다는 점입니다 [5][
9].
다만 P40을 사는 순간 냉각과 전원 문제도 함께 사는 셈입니다. 강제 냉각을 준비할 자신이 없거나 조용하고 편한 데스크톱 환경이 필요하다면 중고 RTX 3090이 더 안전합니다. A100급 메모리가 필요하다면, 이제는 “최저가 업그레이드”가 아니라 별도 예산을 잡아야 할 단계입니다.





