Les modèles fondés sur le texte et l’image saisissent des régularités statistiques utiles, mais leur compréhension du monde physique demeure indirecte : elle dérive de descriptions humaines, pas d’interactions. À l’épreuve du “physical commonsense”, de la planification ou du raisonnement expérimental, leurs limites sont désormais bien documentées.
L’alternative, portée par l’Embodied AI, consiste à apprendre directement à partir d’expériences action-conditionnées : observer comment l’état du monde évolue quand un agent agit, et contraindre le modèle à prédire ces transitions (observation_t, action_t -> observation_t+Δ).
Ce cadre alimente des world models : des représentations latentes capables de simuler des futurs, d’évaluer des contrefactuels et d’identifier des paramètres d’environnement (frictions, masses, raideurs) — bases d’une compréhension causale plutôt que seulement corrélative.
Pour rendre cet apprentissage robuste et généralisable, il faut des données interventionnelles couvrant plusieurs modalités (vision, proprioception, force/tactile, audio, thermiques) et des variations systémiques des lois du milieu. Les pipelines réel + synthétique — incluant real-to-sim-to-real — permettent d’étendre la diversité des scènes et des interactions tout en conservant la plausibilité dynamique nécessaire au transfert en robotique.
Cette direction s’inscrit dans l’émergence des fondation models robotiques et des politiques vision-langage-action, qui cherchent à unifier perception, langage d’instruction et contrôle. L’intégration explicite de signaux d’effort et de tactile renforce la capacité à raisonner sur le contact, la déformation et la sécurité — dimensions essentielles des tâches industrielles.
Position du projet. Nous proposons un standard de données sensorimotrices orienté action, compatible multi-capteurs et multi-référentiels, conçu pour entraîner des world models équivariants et calibrés. L’objectif n’est pas de remplacer le langage, mais de le repositionner : le texte sert d’interface pour spécifier des tâches et interroger des modèles du monde appris par l’interaction. À terme, cela vise des contrôleurs plus fiables, adaptables par faible ajustement local, et évaluables par des métriques de prédiction, d’identification et de contrôle conformes à l’état de l’art.
Notre projet est précisément cela : fabriquer une base d’expérience systématique — réelle et synthétique — qui unifie vision, action motrice, sons, inerties, chaleurs, et tout ce que nos sens révèlent de la physique. Non pas un corpus de textes, mais un corpus d’interventions.
Une grammaire d’interactions effectives où chaque perception est potentiellement actionnable, et chaque action est suivie du monde qu’elle a fait advenir.
Nous cherchons à définir une interface perceptive universelle — la couche minimale qui rend toutes les modalités comparables — non par le symbolique, mais par l’opératoire.
Chaque observation dans ce système n’est plus un “pixel” ni un “embedding”, mais un point dans un espace transitionnel : un état du monde associé à un cône d’actions possibles et à un horizon de conséquences physiques.
Une caméra ne rapporte pas une image ; elle rapporte une scène dans laquelle il y a des actions encore potentielles.
Un capteur de couple n’indique pas seulement une valeur ; il indique comment un geste peut se prolonger.
Le monde devient un graphe causal navigable, pas une capture d’écran.
Ainsi, notre dataset ne sera pas un sac de données : ce sera un atlas d’univers paramétriques.
Chaque trajectoire enregistrée n’est pas un “épisode” ; c’est une expérience interventionnelle précisément métrée.
Nous instrumenterons robots, simulateurs mécaniques paramétriques, environnements industriels, bras anthropomorphes, bancs de friction, convoyeurs, fluides, polymères, palettes.
Chaque séquence sera décrite en unités SI, ancrée dans un référentiel spatial connu, calibrée, horodatée, étiquetée par ses incertitudes, et surtout — par les actions qui l’ont produite.
L’objectif n’est pas seulement d’obtenir une grande base : c’est d’obtenir un matériau capable d’induire des invariants physiques.
C’est cette matière qui servira de socle pour former un modèle général — un modèle qui comprendra le monde non pas par text mining, mais par expérience causale compressée.
Un modèle auquel un LLM pourra se brancher, non comme un oracle omniscient, mais comme un interprète : le langage deviendra un protocole d’expérience et un mode d’interrogation du monde latent, pas la source de la vérité.
Et ensuite ?
Ce même modèle pourra piloter des robots industriels, des cobots, des lignes de production — avec très peu d’adaptation locale — parce qu’il aura appris non pas une tâche, mais la physique de la tâche.
Le finetuning sera un alignement, pas une réécriture — une adaptation de quelques paramètres locaux (frottement, inertie, cadence), pas une re-formation entière.
Nous voulons faire naître le premier noyau d’un “modèle du monde” sans présupposer le langage.
Le langage ne sera qu’une couche d’accès — pas le moteur de compréhension.
Ce projet est une tentative de retourner l’IA dans le monde.
Non plus un système qui prédit des tokens.
Un système qui prédit ce qui arrive quand on agit.