Le passage de Gemini 3.1 Flash-Lite en disponibilité générale n’est pas seulement une annonce produit de plus. Pour une DSI, une équipe plateforme ou un responsable FinOps, c’est surtout un signal opérationnel : Google propose désormais un identifiant de modèle GA, gemini-3.1-flash-lite, pensé pour la vitesse, l’échelle et l’efficacité coût, tandis que l’ancien endpoint preview suit un calendrier d’arrêt court [2].
Autrement dit, la question n’est plus « faut-il regarder ce modèle ? », mais plutôt : quels workloads migrer en premier, où placer Flash-Lite dans l’architecture IA, et comment éviter que les coûts de sortie ne dérapent quand le volume augmente ?
Ce qui change avec la disponibilité générale
Les notes de version de l’API Gemini indiquent que gemini-3.1-flash-lite a été publié le 7 mai 2026 comme version généralement disponible de Gemini 3.1 Flash-Lite, avec une optimisation annoncée pour la vitesse, le passage à l’échelle et l’efficacité économique [2]. Google Cloud précise aussi que Gemini 3.1 Flash-Lite est disponible sur la Gemini Enterprise Agent Platform et le présente comme conçu pour les tâches à très faible latence et à fort volume [
3].
Le changement d’identifiant n’est pas anodin. L’ancien modèle gemini-3.1-flash-lite-preview entre en dépréciation le 11 mai 2026 et doit être arrêté le 25 mai 2026 . Les nouveaux tests devraient donc cibler directement , et les déploiements existants basés sur la preview doivent être migrés avant cette date limite .




