Cette évolution se reflète dans des projets de recherche comme GWM‑1, le premier « general world model » de Runway. Ce système est conçu pour simuler des environnements en temps réel et réagir à des entrées interactives — par exemple des mouvements de caméra ou des commandes robotiques.
Au lieu de produire simplement une vidéo finale, ce type de modèle vise à générer des mondes entiers interactifs, que des utilisateurs ou des agents logiciels peuvent explorer et modifier.
La majorité des systèmes d’IA actuels — notamment les grands modèles de langage — sont entraînés principalement sur des données textuelles. Selon les fondateurs de Runway, ces systèmes apprennent surtout comment les humains décrivent le monde, pas forcément comment il fonctionne réellement.
La vidéo, en revanche, capture directement l’évolution du monde physique dans le temps. D’après l’entreprise, un entraînement basé sur ce type de données permettrait aux modèles d’apprendre des régularités telles que :
Comme la vidéo enregistre des événements qui se déroulent au fil du temps, elle offre des preuves directes des dynamiques physiques, plutôt que des descriptions textuelles de ces phénomènes. Pour Runway, ce type de données d’observation est essentiel pour construire une IA capable de comprendre les interactions réelles.
Dans cette vision, la génération vidéo devient plus qu’un outil créatif : elle sert aussi de base pour entraîner des systèmes capables de simuler et prédire le comportement du monde réel.
Même si les produits actuels de Runway ciblent les créateurs et l’industrie audiovisuelle, l’ambition à long terme est beaucoup plus large. Des world models suffisamment avancés pourraient théoriquement alimenter :
Dans chacun de ces cas, l’avantage clé serait la capacité à prédire comment un environnement évolue dans le temps, plutôt que de produire uniquement du texte ou des images fixes.
Le cinéma sert aujourd’hui de terrain d’expérimentation idéal. Les scènes filmées combinent naturellement mouvements, interactions, angles de caméra et narration visuelle — autant d’éléments utiles pour entraîner des modèles capables de comprendre les dynamiques spatiales et temporelles.
Construire des world models exige des ressources de calcul considérables. Pour soutenir cette ambition, Runway a levé 315 millions de dollars lors d’un tour de financement Series E en 2026, valorisant l’entreprise à environ 5,3 milliards de dollars. Parmi les investisseurs figurent General Atlantic, Nvidia, Adobe Ventures et AMD Ventures.
Selon l’entreprise, ces fonds serviront à pré‑entraîner la prochaine génération de world models et à étendre les applications de ses technologies à de nouveaux secteurs.
Runway collabore également avec Nvidia pour accélérer la recherche sur la génération vidéo et les world models grâce à de nouvelles architectures GPU comme la plateforme Rubin.
Runway n’est pas seule dans cette direction. Plusieurs grands laboratoires d’IA et startups travaillent sur des systèmes capables de comprendre des environnements complets plutôt que seulement le langage.
Parmi les concurrents figurent notamment de grandes organisations de recherche comme Google et OpenAI, ainsi que de nouvelles entreprises spécialisées dans les systèmes multimodaux et la simulation spatiale.
Ces acteurs disposent souvent d’équipes de recherche plus importantes et d’infrastructures de calcul massives, ce qui rend la compétition particulièrement intense.
Malgré les progrès rapides de la génération vidéo par IA, une question centrale demeure : produire une vidéo réaliste signifie‑t‑il réellement comprendre la physique ?
Créer des séquences visuellement convaincantes ne garantit pas qu’un modèle sache prédire de manière fiable les lois physiques du monde réel. Certains chercheurs estiment que les modèles actuels reproduisent surtout des motifs statistiques présents dans leurs données d’entraînement.
Le pari stratégique de Runway est donc risqué mais potentiellement transformateur. Si les world models deviennent la base des futures intelligences artificielles capables de raisonner sur le monde physique, l’avance de Runway dans la vidéo pourrait se révéler décisive. Mais si ces systèmes restent surtout des outils créatifs coûteux, les acteurs disposant de plus de puissance de calcul pourraient prendre l’avantage.
Pour l’instant, Runway tente de se positionner à la frontière entre création visuelle et simulation du monde réel — avec l’idée que la prochaine grande avancée de l’IA pourrait venir non pas du texte, mais de machines qui apprennent en observant le monde se dérouler devant elles.
Comments
0 comments