Một bài phân tích định lượng được đăng lên Reddit bởi người dùng u/tadanada đã chỉ rõ sự lạm phát chi phí này, so sánh một lần chạy benchmark trị giá $1,552 của Gemini 3.5 Flash với $278 của Gemini 3 Flash—sự khác biệt 5,6 lần đã giải thích tại sao các gói trả phí lại 'bốc hơi' nhanh đến vậy .
Phản ứng của Google diễn ra theo hai đợt:
high xuống medium Ngay cả mức tăng hạn ngạch gấp 9 lần cũng không giải quyết triệt để vấn đề. Một số lập trình viên báo cáo rằng họ vẫn bị khóa quyền truy cập Flash hàng tuần chỉ sau 30 phút tiếp tục công việc sau khi hạn ngạch được đặt lại .
Gemini 3.5 Flash Low đại diện cho một sự điều chỉnh mang tính 'phẫu thuật' hơn: thay vì chỉ đơn thuần cấp thêm hạn ngạch thô (một biện pháp vá víu từ phía cung), nó cho lập trình viên một cách để sử dụng ít token hơn cho mỗi tác vụ (kiểm soát từ phía cầu).
Tài liệu chính thức của Google mô tả biến thể Low là đã được "cải tiến đáng kể cho các tác vụ lập trình và tác tử yêu cầu ít bước hơn, mang lại chất lượng mạnh mẽ với độ trễ và chi phí thấp hơn" . Công ty cho biết biến thể Low tạo ra ít hơn khoảng 45% token đầu ra so với biến thể hiện đã được đổi tên là Medium
.
Đối với các lập trình viên, điều này có nghĩa là giờ đây họ có thể cài đặt thinking_level: "low".
Điều này thực sự cung cấp cho lập trình viên một 'núm vặn' bốn cấp cho nỗ lực suy luận—minimal, low, medium, high—thay vì sự lựa chọn nhị phân giữa "bật suy nghĩ" và "tắt suy nghĩ" .
Một trong những 'cái bẫy' API lớn nhất trong lần ra mắt Gemini 3.5 Flash là sự thay đổi không được thông báo về thinking_level mặc định từ high xuống medium. Các lập trình viên chuyển trực tiếp từ gemini-3-flash-preview mà không cài đặt rõ ràng mức suy luận đã vô tình nhận được hành vi suy luận khác đi . Điều này có nghĩa là ngay cả sau khi biến thể Low được ra mắt, nhiều lập trình viên vẫn đang sử dụng nhiều token hơn mức cần thiết cho các tác vụ đơn giản vì họ không nhận thấy mặc định đã thay đổi.
Biến thể Low về cơ bản là để hoàn thiện bản sửa lỗi: nó cung cấp cho các lập trình viên một cấp độ rõ ràng, được ghi chép đầy đủ và được xây dựng có mục đích cho loại công việc nhạy cảm về chi phí mà dòng Flash ban đầu được thiết kế để xử lý.
Việc ra mắt Gemini 3.5 Flash Low, kết hợp với mức tăng hạn ngạch gấp 9 lần và điều chỉnh mức suy luận mặc định, đã ổn định trải nghiệm của lập trình viên trên Antigravity. Các lập trình viên giờ đây có thể:
thinking_level: "low"Biến thể Low không phải là sự thay thế cho việc tăng hạn ngạch của Google—nó là một sự bổ sung. Các lập trình viên sử dụng cả cấp độ suy luận mới và hạn ngạch mở rộng gấp 9 lần giờ đây có thể thực hiện các phiên lập trình hiệu quả mà không bị chạm giới hạn hay 'đốt' sạch ngân sách Antigravity hàng tháng chỉ trong một buổi chiều.
Comments
0 comments