IPW có công thức rất đơn giản: nó lấy độ chính xác mà một mô hình đạt được trên một tác vụ nhất định chia cho năng lượng nó tiêu thụ trong quá trình suy luận . Điều này trái ngược với cách đánh giá AI thông thường là chỉ nhìn vào hiệu năng của mô hình mà bỏ qua chi phí năng lượng và yêu cầu phần cứng.
Thước đo này nắm bắt một hiểu biết sâu sắc: mô hình có khả năng nhất không nhất thiết là mô hình hiệu quả hoặc thực tế nhất. Một mô hình nhỏ chạy trên laptop có thể mang lại 95% độ chính xác của một mô hình đám mây khổng lồ trong khi chỉ tiêu thụ một phần rất nhỏ năng lượng .
Một trong những phát hiện có ý nghĩa tài chính nhất của nghiên cứu liên quan đến việc bạn không cần phải chọn lựa giữa AI cục bộ và đám mây — mà hãy sử dụng cả một cách thông minh.
Định tuyến lý tưởng (Oracle routing), một hệ thống hoàn hảo có thể gán mỗi truy vấn cho mô hình nhỏ nhất có khả năng xử lý, về mặt lý thuyết có thể giảm mức tiêu thụ năng lượng tới 80,4%, khối lượng tính toán 77,3% và chi phí tới 73,8% so với việc chỉ sử dụng đám mây .
Một bộ định tuyến thực tế được thử nghiệm trong các nghiên cứu liên quan đã đạt được kết quả tương tự: nó giảm năng lượng 77,1%, khối lượng tính toán 67,1% và chi phí 60,2% so với các luồng truy cập thực tế, đồng thời vẫn duy trì độ chính xác tương đương .
Đây không phải là một khả năng xa vời. Nghiên cứu chứng minh rằng các kiến trúc lai ghép giữa cục bộ và đám mây đã khả thi và có thể giảm đáng kể chi phí phục vụ các suy luận AI.
Nghiên cứu của Stanford không đưa ra dự báo tài chính cụ thể cho bất kỳ công ty nào. Tuy nhiên, quỹ đạo mà nó ghi nhận có những tác động rõ ràng và mang tính cấu trúc đối với các công ty AI phụ thuộc vào API đám mây .
Các mô hình cục bộ đã có thể xử lý khoảng 89% các truy vấn một lượt với chi phí thấp hơn đáng kể . IPW đã được cải thiện gấp 5,3 lần chỉ trong hai năm và vẫn đang tăng tốc
. Định tuyến thông minh có thể cắt giảm chi phí suy luận đám mây từ 60% trở lên cho những truy vấn còn lại
.
Nếu xu hướng này trở nên phổ biến ở quy mô lớn, khách hàng hoàn toàn có thể thay thế phần lớn các truy vấn API đám mây bằng suy luận nội bộ với chi phí gần như bằng không, chỉ dành các cuộc gọi đám mây cho khoảng 11% tác vụ khó nhất mà các mô hình cục bộ chưa thể xử lý .
Các bài bình luận về nghiên cứu này đã chỉ ra rằng tương lai của AI có thể thuộc về những mô hình 'nhỏ, rẻ và khó sinh lời' đối với các công ty AI tiên phong . Động lực kinh tế đang dịch chuyển về phía các giải pháp thay thế cục bộ, mã nguồn mở có thể phá giá dịch vụ API đám mây — một động thái có thể định hình lại hoàn toàn mô hình kinh doanh của các công ty như OpenAI, Anthropic và xAI.
Nghiên cứu này là một điểm dữ liệu trong một xu hướng lớn hơn. Báo cáo Chỉ số AI 2025 của Stanford HAI cho thấy chi phí suy luận cho một hệ thống có hiệu suất tương đương GPT-3.5 đã giảm hơn 280 lần từ tháng 11/2022 đến tháng 10/2024 . Ở cấp độ phần cứng, chi phí đã giảm 30% mỗi năm, trong khi hiệu quả năng lượng được cải thiện 40% mỗi năm
.
Các mô hình mã nguồn mở cũng đang thu hẹp khoảng cách với các mô hình đóng, giảm sự khác biệt về hiệu suất từ 8% xuống chỉ còn 1,7% trên một số điểm chuẩn chỉ trong một năm .
Mặc dù kết quả rất ấn tượng, điều quan trọng là phải nhận thức rõ phạm vi của nghiên cứu. Nghiên cứu chỉ kiểm tra các truy vấn một lượt — các phản hồi hội thoại đơn giản và các nhiệm vụ suy luận độc lập. Nó không đánh giá các mô hình cục bộ trên các cuộc trò chuyện nhiều lượt, suy luận ngữ cảnh dài hoặc các quy trình tác nhân phức tạp, tất cả các lĩnh vực mà mô hình đám mây vẫn giữ được lợi thế đáng kể .
Các mô hình cục bộ được thử nghiệm (≤20 tỷ tham số) cũng không thể sánh được với các mô hình đám mây tốt nhất ở những vấn đề khó nhất. Các tác giả của nghiên cứu rất rõ ràng về điều này: độ chính xác thay đổi đáng kể theo lĩnh vực và con số 88,7% che giấu hiệu suất yếu hơn trong các lĩnh vực kỹ thuật và khoa học .
Nghiên cứu về 'Trí tuệ trên mỗi Watt' của Stanford cung cấp bằng chứng thực nghiệm mạnh mẽ rằng AI cục bộ đã vượt qua một ngưỡng quan trọng. Đối với phần lớn các truy vấn hàng ngày — tác vụ sáng tạo, quản lý, bán hàng, giải trí — một mô hình nhỏ trên laptop đã là đủ . Tốc độ cải thiện nhanh chóng cho thấy phạm vi bao phủ này sẽ chỉ mở rộng hơn nữa.
Đối với doanh nghiệp, ý nghĩa đã rõ ràng: cơ sở hạ tầng AI hiệu quả nhất về mặt chi phí ngày càng mang tính lai ghép, chuyển các truy vấn đơn giản sang các mô hình cục bộ và dành năng lực đám mây cho các tác vụ khó nhất. Kỷ nguyên gửi mọi truy vấn đến một mô hình đám mây khổng lồ với phí cho mỗi token có thể đang dần khép lại.
Comments
0 comments