IPW นั้นเข้าใจได้ไม่ยาก: เป็นการนำค่าความแม่นยำของโมเดลในงานหนึ่งๆ มาหารด้วยพลังงานที่ใช้ในการอนุมานผลงานนั้น ซึ่งแตกต่างจากการประเมิน AI แบบเดิมๆ ที่มองแค่ความสามารถของโมเดล โดยมองข้ามต้นทุนด้านพลังงานและทรัพยากรที่ต้องใช้
เมตริกนี้ชี้ให้เห็นความจริงที่สำคัญ: โมเดลที่เก่งที่สุดไม่จำเป็นต้องมีประสิทธิภาพสูงสุดเสมอไป โมเดลเล็กที่ทำงานบนแล็ปท็อปอาจให้ความแม่นยำถึง 95% ของโมเดลยักษ์บนคลาวด์ แต่ใช้พลังงานเพียงเศษเสี้ยวเดียว
ข้อค้นพบที่ส่งผลกระทบทางการเงินมากที่สุดประการหนึ่งของงานวิจัยคือจะเกิดอะไรขึ้นเมื่อคุณไม่เลือกว่าจะใช้ AI ในเครื่องหรือบนคลาวด์ แต่ใช้ทั้งสองอย่างอย่างชาญฉลาด
Oracle Routing คือระบบที่สมบูรณ์แบบในทางทฤษฎี โดยจะส่งแต่ละคำถามไปยังโมเดลที่เล็กที่สุดที่สามารถตอบได้ ระบบนี้สามารถลด การใช้พลังงานลง 80.4%, การคำนวณลง 77.3% และต้นทุนลง 73.8% เมื่อเทียบกับการใช้ระบบคลาวด์เพียงอย่างเดียว
ในทางปฏิบัติ ระบบเราท์เตอร์ที่สมจริงซึ่งถูกทดสอบในงานวิจัยที่เกี่ยวข้อง สามารถลดการใช้พลังงานลง 77.1%, การคำนวณลง 67.1% และต้นทุนลง 60.2% เมื่อใช้งานกับปริมาณการรับส่งข้อมูลจริง โดยที่ยังคงความแม่นยำของงานไว้ได้เท่าเดิม
นี่ไม่ใช่เรื่องในอนาคต งานวิจัยยืนยันแล้วว่าระบบ AI แบบผสมผสาน (Hybrid) ที่ใช้ทั้งเครื่องในองค์กรและคลาวด์นั้นมีความเป็นไปได้และสามารถลดต้นทุนการให้บริการ AI ได้อย่างมีนัยสำคัญ
งานวิจัยของ Stanford ไม่ได้คาดการณ์ทางการเงินโดยตรงต่อบริษัทใดๆ แต่แนวโน้มที่ถูกบันทึกไว้ย่อมส่งผลต่อบริษัทที่พึ่งพาบริการ API คลาวด์เป็นหลักอย่างหลีกเลี่ยงไม่ได้
AI ในเครื่องสามารถครอบคลุมคำถามแบบครั้งเดียวได้ประมาณ 89% ด้วยต้นทุนที่ต่ำกว่ามาก IPW เพิ่มขึ้น 5.3 เท่าในเวลาเพียงสองปีและยังคงเร่งตัวขึ้น
การกำหนดเส้นทางอย่างชาญฉลาดสามารถลดต้นทุนการอนุมานผลบนคลาวด์ลงได้ 60% หรือมากกว่าสำหรับคำถามที่เหลือ
หากแนวโน้มนี้เกิดขึ้นจริงในวงกว้าง ลูกค้าอาจเปลี่ยนการเรียกใช้ API คลาวด์ส่วนใหญ่ไปเป็นการอนุมานผลในเครื่องที่เกือบไม่มีต้นทุน โดยสงวนการเรียกใช้คลาวด์ไว้เฉพาะงานที่ยากที่สุดประมาณ 11% ที่ AI ในเครื่องยังจัดการไม่ได้
มีบทวิเคราะห์ที่ตีความการศึกษาชิ้นนี้ว่า อนาคตของ AI อาจเต็มไปด้วยโมเดล 'เล็ก ถูก และไม่ทำกำไร' สำหรับบริษัท AI ชั้นนำ แรงจูงใจทางเศรษฐกิจกำลังเปลี่ยนไปสู่ทางเลือกโอเพ่นเวท (Open-weight) ที่ทำงานในเครื่อง ซึ่งมีราคาถูกกว่าการคิดค่าใช้จ่ายตามการใช้งานบนคลาวด์มาก ซึ่งเป็นพลวัตที่อาจเปลี่ยนโมเดลธุรกิจของบริษัทอย่าง OpenAI, Anthropic และ xAI ไปอย่างสิ้นเชิง
งานศึกษาชิ้นนี้เป็นเพียงจุดข้อมูลหนึ่งในแนวโน้มที่ใหญ่กว่า รายงาน AI Index 2025 จาก Stanford HAI พบว่าต้นทุนการอนุมานผลสำหรับระบบที่ทำงานในระดับเดียวกับ GPT-3.5 ลดลงมากกว่า 280 เท่าระหว่างเดือนพฤศจิกายน 2022 ถึงตุลาคม 2024 ในระดับฮาร์ดแวร์ ต้นทุนลดลง 30% ต่อปี ในขณะที่ประสิทธิภาพการใช้พลังงานดีขึ้น 40% ในแต่ละปี
โมเดลแบบโอเพ่นเวท (Open-weight) ก็กำลังลดช่องว่างกับโมเดลปิด (Closed model) โดยลดความแตกต่างด้านประสิทธิภาพจาก 8% เหลือเพียง 1.7% ในเกณฑ์ชี้วัดบางอย่างภายในปีเดียว
แม้ผลลัพธ์จะน่าประทับใจ แต่สิ่งสำคัญคือต้องเข้าใจขอบเขตของงานศึกษา การทดสอบนี้ใช้คำถามแบบครั้งเดียวเท่านั้น ซึ่งเป็นการตอบแชทและการใช้เหตุผลแบบสั้น ไม่ได้ประเมินการสนทนาหลายรอบ (multi-turn conversation) การใช้เหตุผลเชิงบริบทยาว (long-context reasoning) หรือการทำงานแบบเอเจนต์ที่ซับซ้อน ซึ่งทั้งหมดเป็นพื้นที่ที่โมเดลคลาวด์ยังคงได้เปรียบ
นอกจากนี้ โมเดลในเครื่องที่ทดสอบ (≤20 พันล้านพารามิเตอร์) ยังไม่สามารถเทียบชั้นกับโมเดลคลาวด์ที่ดีที่สุดในปัญหาที่ยากที่สุดได้ ผู้เขียนงานวิจัยระบุไว้อย่างชัดเจนว่าความแม่นยำแปรผันตามสาขา และตัวเลข 88.7% อาจบดบังประสิทธิภาพที่ด้อยกว่าในสาขาเทคนิคและวิทยาศาสตร์
งานวิจัย 'Intelligence Per Watt' ของ Stanford ได้ให้หลักฐานเชิงประจักษ์ที่หนักแน่นว่า AI ที่ทำงานในเครื่องของเราได้ก้าวข้ามจุดเปลี่ยนสำคัญแล้ว สำหรับคำถามทั่วไปในชีวิตประจำวันส่วนใหญ่ ไม่ว่าจะเป็นงานสร้างสรรค์ งานบริหาร งานขาย หรือความบันเทิง โมเดลเล็กๆ บนแล็ปท็อปก็เพียงพอแล้ว อัตราการพัฒนาที่รวดเร็วชี้ให้เห็นว่าความครอบคลุมนี้จะขยายออกไปอีก
สำหรับธุรกิจ ข้อสรุปชัดเจน: โครงสร้างพื้นฐาน AI ที่คุ้มค่าที่สุดคือระบบแบบผสมผสาน (Hybrid) ที่ส่งคำถามง่ายไปให้ AI ในเครื่องจัดการ และสงวนความสามารถของคลาวด์ไว้สำหรับงานที่ยากที่สุดเท่านั้น ยุคที่ทุกคำถามต้องถูกส่งไปยังโมเดลยักษ์บนคลาวด์เพื่อคิดค่าธรรมเนียมตามจำนวน Token อาจกำลังใกล้สิ้นสุดลงแล้ว
Comments
0 comments