ระบบ routing ที่ใช้งานจริงควรมีอย่างน้อย 4 ส่วน
เมื่อราคาในตระกูลเดียวกันต่างกันได้หลายเท่า การ route โมเดลไม่ใช่การประหยัดเล็ก ๆ แต่เป็นตัวตัดสินว่าฟีเจอร์ AI หนึ่งฟีเจอร์จะทำกำไรหรือขาดทุน
ราคาฝั่งอินพุตที่ถูกลงไม่ได้แปลว่าบิลรวมจะถูกลงเสมอ เพราะในตระกูล GPT-4.1 OpenAI ระบุราคาเอาต์พุตไว้สูงกว่าอินพุต 4 เท่า ได้แก่ GPT-4.1 ที่ $4.00 เทียบกับ $1.00, GPT-4.1 mini ที่ $0.80 เทียบกับ $0.20 และ GPT-4.1 nano ที่ $0.20 เทียบกับ $0.05 ต่อ 1 ล้านโทเคน OpenAI ยังระบุ o3-pro ที่ $10.00 ต่อ 1 ล้านโทเคนอินพุต และ $40.00 ต่อ 1 ล้านโทเคนเอาต์พุต
ผลกระทบจะเห็นชัดในแอปที่สร้างคำตอบยาวหรือทำงานหลายรอบ เช่น แชตบอต ผู้ช่วยเขียนโค้ด เครื่องมือสรุปรายงาน ระบบค้นคว้า หรือ agent ที่แก้ไขคำตอบและเรียกโมเดลซ้ำหลายครั้ง ในระบบเหล่านี้ ค่าใช้จ่ายอาจไม่ได้มาจากสิ่งที่ผู้ใช้พิมพ์เข้ามาเป็นหลัก แต่มาจากสิ่งที่แอปสั่งให้โมเดลผลิตออกไป
วิธีคุมต้นทุนที่ควรมีตั้งแต่ต้น ได้แก่ จำกัดความยาวเอาต์พุต ตั้งค่าโทนคำตอบให้กระชับเป็นค่าเริ่มต้น กำหนด token budget แยกตามฟีเจอร์ ตั้ง alert เมื่อคำตอบยาวผิดปกติ และแยกบัญชีต้นทุนอินพุตกับเอาต์พุตให้เห็นชัด
หน้า API Pricing ของ OpenAI แยกราคา cached input ออกจาก input ปกติ และมีรายการหนึ่งที่ระบุ cached input ที่ $0.50 ต่อ 1 ล้านโทเคน เทียบกับ input ปกติ $5.00 ต่อ 1 ล้านโทเคน รายละเอียดจริงขึ้นอยู่กับโมเดลที่รองรับและรูปแบบ workload แต่สัญญาณด้านต้นทุนชัดเจน: บริบทที่ส่งซ้ำ ๆ อาจกลายเป็นพื้นที่ประหยัดเงินก้อนใหญ่
เรื่องนี้สำคัญกับแอปที่ส่ง system prompt ยาว ๆ คำสั่งเครื่องมือ schema ข้อความนโยบาย retrieval context หรือประวัติสนทนาส่วนเดิมซ้ำไปซ้ำมา ทีมพัฒนาควรถามตั้งแต่ขั้นออกแบบว่า บริบทส่วนไหนคงที่ บริบทส่วนไหนตัดออกได้ และส่วนไหนเข้าข่ายใช้ราคาของ cached input ได้
สำหรับฝ่ายธุรกิจ ประเด็นนี้แปลว่า prompt ไม่ใช่แค่เรื่องคุณภาพคำตอบ แต่เป็นต้นทุนปฏิบัติการ ถ้า prompt ยาวขึ้นทุก release โดยไม่มีใครวัดผล ต้นทุนต่อคำขอก็จะค่อย ๆ สูงขึ้นโดยไม่รู้ตัว
ไม่ใช่งาน AI ทุกชนิดต้องตอบภายในไม่กี่วินาที Azure OpenAI ระบุว่า Batch API สามารถคืนผลภายใน 24 ชั่วโมง และให้ส่วนลด 50% จาก Global Standard Pricing นี่ทำให้งานเบื้องหลังที่รอได้ เช่น เติมข้อมูลเอกสาร ติดแท็กคอนเทนต์ ประเมินผลคำตอบ ทำความสะอาดข้อมูล หรือ automation หลังบ้าน เหมาะกับคิวแบบ asynchronous มากขึ้น
Azure OpenAI ยังระบุ Provisioned Throughput Units หรือ PTUs เป็นวิธีจัดสรร throughput เพื่อให้ต้นทุนคาดการณ์ได้มากขึ้น พร้อมตัวเลือกจองรายเดือนและรายปีเพื่อลดค่าใช้จ่ายโดยรวม สำหรับองค์กรขนาดใหญ่ ทางเลือกจึงไม่ได้มีแค่จ่ายตามการใช้งานจริงเสมอไป แต่อาจผสมระหว่าง on-demand, batch และ capacity ที่จองไว้สำหรับงานปริมาณสูงที่คาดการณ์ได้
ราคาใหม่ช่วยให้หลายฟีเจอร์ AI ดูคุ้มขึ้น แต่ไม่ได้ทำให้การบริหารต้นทุนหายไป ตรงกันข้าม ทีมที่จริงจังกับ AI ต้องเริ่มทำ AI FinOps หรือการบริหารต้นทุน AI แบบวัดได้มากขึ้น
เช็กลิสต์ที่ควรเริ่มทำมีดังนี้
โครงสร้างราคาของ OpenAI API ทำให้การสร้างฟีเจอร์ AI หลายประเภทมีโอกาสคุ้มค่าขึ้น โดยเฉพาะเมื่อทีมสามารถใช้โมเดลต้นทุนต่ำอย่าง GPT-4.1 mini หรือ GPT-4.1 nano ได้อย่างเหมาะสม แต่สูตรที่ชนะไม่ใช่การเลือกโมเดลที่ถูกที่สุดเสมอไป
สูตรที่ชนะคือสถาปัตยกรรมที่รู้ต้นทุน: route ตามความยากของงาน คุมความยาวเอาต์พุต ใช้ cached input เมื่อเหมาะสม แยกงานที่รอได้ไป batch และวัดต้นทุนละเอียดพอให้ทีมผลิตภัณฑ์ วิศวกร และการเงินตัดสินใจจากข้อมูลเดียวกัน
Comments
0 comments