في نقاش عتاد الذكاء الاصطناعي، يظهر سؤال متكرر: هل TPU أسرع من GPU؟ هذه صياغة تختصر المشكلة أكثر مما ينبغي. وحدة معالجة التنسورات من Google، أو TPU، هي مسرّع متخصص لمعالجة التنسورات في أنظمة تعلم الآلة [2]. أما NVIDIA H100 SXM فهو GPU لمراكز البيانات، وتعرض مواصفاته العامة أنماطًا متعددة تشمل FP64 وFP32 وTF32 Tensor Core وBF16/FP16 وFP8 وINT8 [
10].
لذلك لا يبدأ القرار من «الأسرع»، بل من: هل يناسب العتاد شكل النموذج؟ هل تحتاج دقات حسابية متنوعة؟ ما حجم الذاكرة المطلوب؟ كيف سيتوسع النظام؟ وهل تعمل بالفعل داخل بيئة Google Cloud أو ضمن منظومة GPU قائمة؟ ولجعل المقارنة محددة، نستخدم هنا NVIDIA H100 SXM وأجهزة A3 المزودة بـH100 على Google Cloud كمرجع للـGPU، ونستخدم TPU v5e وv5p وv6e كمرجع للـTPU [1][
10][
11].
الخلاصة السريعة
- اختر Google TPU إذا كان عبء العمل تعلمًا عميقًا في الأساس، وكان النموذج يتوافق جيدًا مع تنفيذ TPU، وكان الفريق مرتاحًا لأساليب التوسع الموجهة للـTPU. توثق مواد JAX الخاصة بالتوسع طوبولوجيا عناقيد TPU، وذاكرة HBM لكل شريحة، وعرض الحزمة، وأرقام BF16 وINT8 لأجيال v5e وv5p وv6e [
11].
- اختر NVIDIA H100 GPU إذا كنت تحتاج دعمًا أوسع للدقات الرقمية، أو تشغّل أعباء عمل متنوعة، أو تريد تقليل مخاطر الانتقال من منظومة مبنية أصلًا حول GPU. تعرض NVIDIA لـH100 SXM دعم FP64 وFP32 وTF32 Tensor Core وBF16/FP16 Tensor Core وFP8 Tensor Core وINT8 Tensor Core، مع 80GB من HBM3 وعرض حزمة 3.35TB/s [
10].
- اختبر الاثنين إذا كانت الكلفة هي العامل الحاسم. المواصفات القصوى، وسعر الشريحة في الساعة، وادعاءات المورّدين لا تعوّض قياس الكلفة لكل خطوة تدريب مفيدة أو لكل رمز استدلال على نموذجك أنت.
التخصص في مقابل المرونة
ميزة TPU الأساسية أنها متخصصة. هذا التخصص قد يكون قويًا جدًا عندما تكون العمليات عبارة عن مصفوفات وتنسورات كبيرة ومنتظمة، وعندما يستطيع المترجم وتوزيع العمل إبقاء الشرائح مشغولة بكفاءة [2]. في هذه الحالة، لا تكون المقارنة مجرد رقم نظري على الورق، بل قدرة فعلية على تشغيل النموذج بأقل هدر ممكن.
أما H100 فيسلك طريقًا أوسع. هو مصمم بقوة لأعباء الذكاء الاصطناعي عبر Tensor Cores، لكنه لا يقتصر على مسار واحد؛ فجدول H100 SXM العام يتضمن أداء FP64 وFP32 التقليديين إضافة إلى أنماط Tensor Core الأقل دقة مثل TF32 وBF16/FP16 وFP8 وINT8 [10]. هذه المرونة مهمة إذا كان نفس التجمع الحاسوبي سيخدم تجارب مختلفة، أو نماذج بمتطلبات دقة متباينة، أو أعباء لا تشبه بعضها تمامًا.
المواصفات العامة: مفيدة، لكنها ليست اختبار أداء
الجداول العلنية تساعدك على فهم اتجاه المفاضلة، لكنها لا تصلح وحدها كحكم نهائي. فجدول TPU وجدول GPU قد يستخدمان دقات حسابية مختلفة، وافتراضات نظام مختلفة، ومسارات توسع مختلفة.
| المسرّع | الذاكرة المعلنة | عرض الحزمة المعلن | أرقام الحوسبة المعلنة | كيف تقرأها |
|---|---|---|---|---|
| TPU v5e | 16GB HBM لكل شريحة | 8.1e11 بايت/ثانية لكل شريحة | 1.97e14 BF16 FLOPs/s لكل شريحة؛ 3.94e14 INT8 FLOPs/s لكل شريحة | خيار TPU بذاكرة أقل لكل شريحة من v5p وv6e في جدول JAX؛ لذلك يجب فحص ملاءمة الذاكرة بعناية [ |
| TPU v5p | 96GB HBM لكل شريحة | 2.8e12 بايت/ثانية لكل شريحة | 4.59e14 BF16 FLOPs/s لكل شريحة؛ 9.18e14 INT8 FLOPs/s لكل شريحة | أعلى صف في HBM لكل شريحة بين v5e وv5p وv6e في جدول JAX [ |
| TPU v6e | 32GB HBM لكل شريحة | 1.6e12 بايت/ثانية لكل شريحة | 9.20e14 BF16 FLOPs/s لكل شريحة؛ 1.84e15 INT8 FLOPs/s لكل شريحة | أعلى إنتاجية معلنة لكل شريحة في BF16 وINT8 بين صفوف TPU هذه [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | 34 TFLOPS في FP64؛ 67 TFLOPS في FP64 Tensor Core؛ 67 TFLOPS في FP32؛ 989 TFLOPS في TF32 Tensor Core؛ 1,979 TFLOPS في BF16/FP16 Tensor Core؛ 3,958 TFLOPS في FP8 Tensor Core؛ 3,958 TOPS في INT8 Tensor Core | تغطية واسعة للدقات الرقمية، وعرض حزمة ذاكرة عالٍ، وشخصية أقرب إلى منصة مسرّعات عامة لا إلى مسار واحد فقط [ |
توضح Google Cloud أيضًا أن عائلات A3 يمكن أن تأتي مع 1 أو 2 أو 4 أو 8 وحدات NVIDIA H100، مع 80GB من HBM3 لكل GPU [1]. كما تعرض مواد AI Hypercomputer من Google Cloud كلًا من TPUs وأجهزة A3 العاملة بـH100 ضمن محفظة بنية تحتية واحدة للذكاء الاصطناعي [
18]. بمعنى آخر: داخل Google Cloud نفسها، قد لا يكون القرار «TPU أم GPU في مزود آخر»، بل قد يكون اختيارًا بين مسارين متاحين في البيئة نفسها.
متى يكون Google TPU الخيار الأقوى؟
ضع TPU في أعلى القائمة عندما يتحول التخصص إلى ميزة لا إلى قيد. غالبًا ما يكون ذلك منطقيًا إذا:
- كان العمل تدريبًا أو استدلالًا في التعلم العميق، ومهيمنًا عليه بعمليات تنسورية كبيرة [
2].
- كانت أشكال التنسورات، وحجم الدفعات، وأنماط التقسيم والتوزيع مستقرة بما يكفي لضبطها على TPU.
- كان الفريق مستعدًا للعمل وفق ممارسات التوسع الخاصة بـTPU؛ فوثائق JAX تتعامل مع حجم العنقود، وحجم المضيف، وسعة HBM، وعرض الحزمة، وإنتاجية BF16/INT8 كأبعاد تخطيط أساسية [
11].
- كانت Google Cloud هي بيئة النشر المقصودة أصلًا.
- كان الهدف التجاري هو أفضل كلفة مقابل أداء لمجموعة ضيقة من النماذج، لا أقصى قابلية نقل بين أنواع كثيرة من الأعباء.
قد يكون TPU جذابًا عندما يبقي عبء العمل الشرائح مشغولة ويتجنب عمليات نقل أو إعادة كتابة مكلفة. لكن هذه نتيجة مرتبطة بعبء العمل، وليست صفة عامة تنطبق على كل مشروع. نشرت Google مادة عن الأداء مقابل الدولار في استدلال الذكاء الاصطناعي على GPUs وTPUs، وهو ما يعزز فكرة أن اقتصاديات الخدمة تعتمد على النموذج والإعداد، لا على ترتيب عالمي ثابت للمسرّعات [16].
متى يكون NVIDIA H100 GPU الخيار الأقوى؟
يميل H100 إلى أن يكون الخيار الأكثر أمانًا عندما تكون المرونة أهم من التخصص. يكون ذلك واضحًا خصوصًا إذا:
- كنت تحتاج دقات أعلى مثل FP64 أو FP32 إلى جانب أنماط Tensor Core الأقل دقة؛ فجدول H100 SXM يتضمن FP64 وFP32 وTF32 وBF16 وFP16 وFP8 وINT8 [
10].
- كانت قاعدة الشيفرة الحالية تعتمد على نوى حسابية أو مكتبات أو أدوات تشغيل موجهة للـGPU.
- كان نفس تجمع العتاد سيخدم عدة أنواع من الأعباء، لا عائلة نماذج ضيقة فقط.
- كنت تريد أشكال أجهزة H100 على Google Cloud؛ إذ توثق Google Cloud أنواع A3 مع 1 أو 2 أو 4 أو 8 وحدات H100 متصلة [
1].
- كانت مخاطر الانتقال، وإعادة الاختبار، وتعديل المراقبة والنشر أهم من مكسب نظري في كفاءة الشريحة.
أقوى حجة لصالح H100 ليست أنه يتفوق على كل شريحة TPU في كل معيار. الحجة الأهم أنه منصة أوسع عندما تتغير المتطلبات أو تتسع أنواع النماذج.
الكلفة: لا تقارن سعر الساعة وحده
المقارنات السعرية جذابة، لكنها قد تكون مضللة. أدرجت مقارنة من طرف ثالث Google Cloud TPU v5e عند نحو 1.20 دولار لكل شريحة/ساعة، ومثال Azure ND H100 v5 عند نحو 12.84 دولار لكل ساعة GPU من نوع H100 بسعة 80GB [4]. لكن هذه مقارنة غير رسمية وبين مزودين سحابيين مختلفين، لذا تصلح كإشارة أولية لا كاستنتاج عام بأن TPU أرخص دائمًا.
الأفضل أن تقيس الكلفة كنظام كامل:
- الإنتاجية المفيدة: خطوات تدريب في الثانية، عينات في الثانية، رموز في الثانية، أو زمن استجابة عند حجم الدفعة المستهدف.
- نمط الدقة: أرقام FP8 وBF16 وFP16 وTF32 وFP32 وFP64 وINT8 ليست قابلة للاستبدال مباشرة [
10][
11].
- سعة الذاكرة وعرض الحزمة: النماذج الكبيرة، والسياقات الطويلة، وحجم الدفعة قد تنقل عنق الزجاجة بعيدًا عن ذروة الحوسبة النظرية [
10][
11].
- سلوك التوسع: طوبولوجيا عناقيد TPU وتكوينات أجهزة H100 تؤثر في تصميم التدريب والاستدلال الموزع [
1][
11].
- معدل الاستخدام: المسرّعات الخاملة مكلفة حتى لو بدا سعرها في الساعة جيدًا.
- كلفة الهندسة: النقل، وضبط المترجم، وتصحيح الأخطاء، والمراقبة، وتغييرات النشر قد تلتهم أي وفر في سعر الشريحة.
المقياس العملي هو الكلفة لكل مخرج مفيد: لكل خطوة تدريب، أو لكل نموذج يصل إلى التقارب، أو لكل رمز استدلال، أو لكل هدف زمن استجابة.
مصفوفة قرار مختصرة
| الأولوية | الخيار الافتراضي الأفضل | السبب |
|---|---|---|
| تعلم عميق مناسب لـTPU على Google Cloud | Google TPU | وثائق TPU العامة تركز على حجم العنقود، وHBM، وعرض الحزمة، وإنتاجية BF16/INT8 كعوامل أساسية للتوسع [ |
| دعم واسع للدقات الرقمية | NVIDIA H100 GPU | H100 SXM يدرج FP64 وFP32 وTF32 Tensor Core وBF16/FP16 Tensor Core وFP8 Tensor Core وINT8 Tensor Core [ |
| نشر قائم على Google Cloud مع رغبة في المرونة | اختبر الاثنين | Google Cloud توثق أجهزة A3 المزودة بـH100، وتعرض TPUs وA3 H100 ضمن محفظة بنية تحتية واحدة للذكاء الاصطناعي [ |
| أقل كلفة للاستدلال | اختبر الاثنين | لدى Google مادة عن الأداء مقابل الدولار في الاستدلال، بينما أمثلة سعر الشريحة من طرف ثالث تبقى اتجاهية وعابرة للمزودين [ |
| منظومة إنتاج مبنية أصلًا حول GPU | NVIDIA H100 GPU | تقليل مخاطر الانتقال قد يكون أهم من مكسب نظري في كفاءة المسرّع. |
الخلاصة
تعامل مع TPU بوصفه مسرّعًا أكثر تخصصًا للذكاء الاصطناعي، ومع H100 بوصفه منصة مسرّعات أكثر مرونة. إذا كان نموذجك مناسبًا لـTPU، ومتمحورًا حول التعلم العميق، ومتجهًا أصلًا إلى Google Cloud، فقد يكون TPU رهانًا أفضل في الكلفة مقابل الأداء. أما إذا كنت تحتاج دقات رقمية أوسع، أو أعباء عمل مختلطة، أو استمرارًا تشغيليًا لمنظومة GPU، أو تقليلًا لمخاطر الانتقال، فغالبًا ما يكون NVIDIA H100 GPU هو الخيار الافتراضي الأكثر أمانًا [10][
11].
الإجابة النهائية الموثوقة لا تأتي من جدول مواصفات فقط، بل من اختبار خاص بعبء عملك يقيس الإنتاجية، وسلوك الذاكرة، ومعدل الاستخدام، والكلفة الإجمالية، والجهد الهندسي على النموذج الذي ستدرّبه أو تخدمه بالفعل.




