Các cuộc so sánh phần cứng AI rất dễ bị rút gọn thành một câu hỏi: “TPU có nhanh hơn GPU không?”. Cách hỏi đó nghe gọn, nhưng quá rộng. TPU, viết tắt của Tensor Processing Unit, là bộ tăng tốc chuyên dụng cho xử lý tensor trong hệ thống máy học [2]. Trong khi đó, NVIDIA H100 SXM là GPU trung tâm dữ liệu có bảng thông số công khai trải từ FP64, FP32, TF32 Tensor Core, BF16/FP16, FP8 đến INT8 [
10].
Vì vậy, câu trả lời đúng thường không phải là “TPU” hay “GPU” cho mọi trường hợp. Nó phụ thuộc vào mô hình có hợp kiến trúc hay không, stack phần mềm, độ chính xác số học cần dùng, dung lượng và băng thông bộ nhớ, cách scale, cũng như môi trường triển khai.
Để so sánh cụ thể, bài viết này lấy NVIDIA H100 SXM và các máy ảo Google Cloud A3 dùng H100 làm mốc GPU, còn TPU v5e, v5p và v6e làm mốc TPU [1][
10][
11].
Kết luận nhanh
- Chọn Google TPU nếu workload chủ yếu là deep learning, mô hình ánh xạ tốt sang cách thực thi của TPU, và đội ngũ quen hoặc sẵn sàng làm việc với cách mở rộng theo TPU. Tài liệu scale của JAX liệt kê topology pod, HBM trên mỗi chip, băng thông, BF16 và INT8 cho TPU v5e, v5p và v6e [
11].
- Chọn NVIDIA H100 GPU nếu bạn cần dải chế độ số học rộng hơn, workload pha trộn, hoặc muốn giảm rủi ro khi đang có stack ưu tiên GPU. NVIDIA công bố H100 SXM hỗ trợ FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core và INT8 Tensor Core, cùng 80 GB HBM3 và băng thông bộ nhớ 3,35 TB/s [
10].
- Benchmark cả hai nếu chi phí là yếu tố quyết định. FLOPS đỉnh, giá theo giờ chip và tuyên bố của nhà cung cấp không thay thế được phép đo chi phí trên mỗi bước huấn luyện hữu ích hoặc mỗi token suy luận của chính mô hình bạn đang chạy.
Khác biệt cốt lõi: chuyên biệt và linh hoạt
TPU là ASIC chuyên cho xử lý tensor trong hệ thống máy học [2]. Mức chuyên biệt đó giúp TPU hấp dẫn với các workload tensor lớn, đều và lặp lại: nếu đường compiler, shape tensor, batch và cách sharding hợp với TPU, phần cứng có thể được khai thác hiệu quả hơn.
H100 đi theo hướng rộng hơn. GPU này được tối ưu mạnh cho AI bằng Tensor Core, nhưng bảng thông số H100 SXM của NVIDIA vẫn bao gồm cả FP64, FP32 truyền thống và nhiều chế độ Tensor Core độ chính xác thấp hơn [10]. Điều này quan trọng khi cùng một cụm phần cứng phải phục vụ nhiều thử nghiệm, nhiều yêu cầu precision, hoặc các workload không hoàn toàn giống nhau.
Nói ngắn gọn: TPU có thể rất mạnh khi bài toán “vừa khuôn”; H100 thường dễ xoay xở hơn khi yêu cầu thay đổi.
Thông số công khai: dùng để định hướng, không phải bảng xếp hạng
Thông số thô cho thấy hình dáng của cuộc đánh đổi, nhưng không phải benchmark ngang hàng tuyệt đối. Bảng TPU và GPU thường dùng precision khác nhau, giả định hệ thống khác nhau và đường scale khác nhau.
| Bộ tăng tốc | Bộ nhớ công khai | Băng thông công khai | Tính toán công khai | Nên hiểu như thế nào |
|---|---|---|---|---|
| TPU v5e | 16 GB HBM mỗi chip | 8,1e11 byte/s mỗi chip | BF16: 1,97e14 FLOP/s mỗi chip; INT8: 3,94e14 FLOP/s mỗi chip | Lựa chọn TPU có HBM mỗi chip thấp hơn v5p và v6e trong bảng JAX; cần kiểm tra kỹ mô hình có vừa bộ nhớ hay không [ |
| TPU v5p | 96 GB HBM mỗi chip | 2,8e12 byte/s mỗi chip | BF16: 4,59e14 FLOP/s mỗi chip; INT8: 9,18e14 FLOP/s mỗi chip | Dòng có HBM mỗi chip cao nhất trong ba lựa chọn TPU v5e, v5p và v6e được nêu trong bảng JAX [ |
| TPU v6e | 32 GB HBM mỗi chip | 1,6e12 byte/s mỗi chip | BF16: 9,20e14 FLOP/s mỗi chip; INT8: 1,84e15 FLOP/s mỗi chip | Dòng có throughput BF16 và INT8 mỗi chip cao nhất trong ba dòng TPU này [ |
| NVIDIA H100 SXM | 80 GB HBM3 | 3,35 TB/s | 34 TFLOPS FP64; 67 TFLOPS FP64 Tensor Core; 67 TFLOPS FP32; 989 TFLOPS TF32 Tensor Core; 1.979 TFLOPS BF16/FP16 Tensor Core; 3.958 TFLOPS FP8 Tensor Core; 3.958 TOPS INT8 Tensor Core | Dải precision rộng, băng thông bộ nhớ cao và hồ sơ sử dụng linh hoạt hơn cho nhiều loại workload [ |
Google Cloud cũng tài liệu hóa các máy A3 dùng H100 với 1, 2, 4 hoặc 8 GPU H100 gắn kèm, mỗi GPU có 80 GB HBM3 [1]. Tài liệu AI Hypercomputer của Google Cloud còn mô tả TPU và máy ảo A3 chạy GPU H100 như hai phần của cùng một danh mục hạ tầng AI [
18]. Vì vậy, lựa chọn thực tế không nhất thiết là “TPU trên Google Cloud” đối đầu với “GPU ở nơi khác”.
Khi Google TPU đáng ưu tiên
TPU là ứng viên mạnh khi sự chuyên biệt trở thành lợi thế, không phải rào cản. Hãy đưa TPU lên đầu danh sách nếu:
- công việc là huấn luyện hoặc suy luận deep learning, với phần lớn thời gian nằm ở các phép toán tensor lớn [
2];
- mô hình có shape, batch và cách sharding tương đối ổn định, có thể tinh chỉnh để tận dụng TPU;
- đội ngũ sẵn sàng làm việc theo cách scale của TPU; tài liệu JAX xem kích thước pod, kích thước host, dung lượng HBM, băng thông và throughput BF16/INT8 là các chiều quy hoạch chính [
11];
- Google Cloud đã là môi trường triển khai dự kiến;
- mục tiêu kinh doanh là hiệu năng trên chi phí đo được cho một nhóm mô hình hẹp, thay vì tính di động tối đa qua nhiều loại workload.
TPU có thể rất đáng giá khi workload giữ chip bận đều và không kéo theo chi phí viết lại quá lớn. Nhưng đó là kết quả của workload cụ thể, không phải chân lý chung cho mọi mô hình. Google từng công bố phân tích performance-per-dollar cho GPU và TPU trong AI inference, cho thấy kinh tế vận hành inference phụ thuộc vào mô hình và cách thiết lập, chứ không chỉ vào một bảng xếp hạng accelerator cố định [16].
Khi NVIDIA H100 là lựa chọn an toàn hơn
NVIDIA H100 là ứng viên mạnh khi tính linh hoạt đáng giá hơn mức chuyên biệt. H100 đặc biệt phù hợp khi:
- bạn cần các chế độ precision cao hơn như FP64 hoặc FP32, đồng thời vẫn muốn dùng các chế độ Tensor Core độ chính xác thấp; bảng H100 SXM công khai có FP64, FP32, TF32, BF16, FP16, FP8 và INT8 [
10];
- codebase đã phụ thuộc vào kernel, thư viện hoặc công cụ vận hành theo hướng GPU;
- cùng một cụm phần cứng phải gánh nhiều loại workload, không chỉ một họ mô hình hẹp;
- bạn muốn dùng máy ảo H100 ngay trên Google Cloud; các máy A3 được tài liệu hóa với 1, 2, 4 hoặc 8 GPU H100 gắn kèm [
1];
- rủi ro di chuyển hệ thống quan trọng hơn lợi ích hiệu quả lý thuyết ở cấp chip.
Luận điểm mạnh nhất của H100 không phải lúc nào cũng là một GPU sẽ thắng một chip TPU trong mọi benchmark. Điểm mạnh thường nằm ở chỗ GPU là nền tảng linh hoạt hơn khi yêu cầu thay đổi.
Chi phí: đừng chỉ nhìn giá một giờ chip
So sánh giá rất hấp dẫn, nhưng cũng rất dễ gây hiểu nhầm. Một bảng so sánh của bên thứ ba từng ghi Google Cloud TPU v5e khoảng 1,20 USD mỗi chip-giờ, còn ví dụ Azure ND H100 v5 khoảng 12,84 USD mỗi giờ cho một GPU H100 80 GB [4]. Đây là so sánh chéo cloud và không phải kết luận chính thức, nên chỉ nên xem như tín hiệu tham khảo, không phải bằng chứng rằng TPU luôn rẻ hơn.
Cách so chi phí tốt hơn là đo cả hệ thống:
- Throughput hữu ích: số bước huấn luyện mỗi giây, sample mỗi giây, token mỗi giây, hoặc độ trễ ở batch size mục tiêu.
- Chế độ precision: FP8, BF16, FP16, TF32, FP32, FP64 và INT8 không thể hoán đổi cho nhau như cùng một đơn vị [
10][
11].
- Dung lượng và băng thông bộ nhớ: mô hình lớn, context dài và batch size có thể khiến nút thắt chuyển từ compute đỉnh sang bộ nhớ [
10][
11].
- Hành vi khi scale: topology pod của TPU và cấu hình máy H100 ảnh hưởng trực tiếp đến thiết kế huấn luyện phân tán hoặc inference phân tán [
1][
11].
- Mức sử dụng thực tế: accelerator nhàn rỗi vẫn tốn tiền, dù giá theo giờ trông hấp dẫn.
- Chi phí kỹ thuật: port code, làm việc với compiler, debug, monitoring và thay đổi triển khai có thể lớn hơn phần tiết kiệm chip-giờ.
Thước đo thực dụng nhất là chi phí trên mỗi đầu ra hữu ích: mỗi bước huấn luyện, mỗi mô hình hội tụ, mỗi token inference, hoặc mỗi mục tiêu độ trễ.
Ma trận quyết định nhanh
| Ưu tiên | Mặc định nên nghiêng về | Lý do |
|---|---|---|
| Deep learning hợp TPU trên Google Cloud | Google TPU | Tài liệu TPU công khai nhấn mạnh scale theo pod, HBM, băng thông và throughput BF16/INT8 cho việc scale mô hình [ |
| Hỗ trợ precision rộng | NVIDIA H100 GPU | H100 SXM liệt kê FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core và INT8 Tensor Core [ |
| Đã triển khai trên Google Cloud nhưng muốn có lựa chọn | Benchmark cả hai | Google Cloud tài liệu hóa máy A3 dùng H100, đồng thời đặt TPU và A3 H100 VM trong danh mục hạ tầng AI của mình [ |
| Chi phí inference thấp nhất | Benchmark cả hai | Google đã công bố phân tích performance-per-dollar cho AI inference, trong khi ví dụ giá chip-giờ của bên thứ ba chỉ mang tính tham khảo và chéo cloud [ |
| Stack production hiện tại ưu tiên GPU | NVIDIA H100 GPU | Tránh rủi ro di chuyển có thể quan trọng hơn lợi ích hiệu quả lý thuyết của accelerator khác. |
Chốt lại
Hãy xem TPU là bộ tăng tốc AI chuyên biệt hơn, còn H100 là nền tảng accelerator linh hoạt hơn. Nếu mô hình của bạn hợp TPU, nặng deep learning và đã hướng đến Google Cloud, TPU có thể là lựa chọn tốt hơn về hiệu năng trên chi phí. Nếu bạn cần nhiều chế độ số học, workload pha trộn, tiếp tục vận hành stack GPU hiện có hoặc giảm rủi ro di chuyển, NVIDIA H100 GPU thường là lựa chọn mặc định an toàn hơn [10][
11].
Câu trả lời cuối cùng đáng tin cậy vẫn là benchmark theo workload: đo throughput, hành vi bộ nhớ, mức sử dụng, tổng chi phí và công sức kỹ thuật trên chính mô hình bạn định huấn luyện hoặc phục vụ.




