Vers une IA incarnée : relier perception, action et causalité

INTRODUCTION

L’apprentissage automatique a montré qu’il était possible d’extraire du sens global à partir de descriptions humaines du monde. Les modèles fondés sur le langage, sur les images, ou sur leur combinaison, démontrent chaque jour davantage leur capacité à inférer, compléter, extrapoler et raisonner à partir de représentations symboliques et perceptives indirectes. Mais cette compréhension demeure dérivée. Elle ne se fonde pas sur l’interaction directe avec les processus qui gouvernent la matière, elle se fonde sur un récit humain déjà interprété.

L’enjeu de ce document est d’examiner la possibilité de construire une architecture de données qui permettrait aux modèles d’apprendre non pas à partir de descriptions du monde, mais à partir de l’expérience physique elle-même, sous la forme de transitions action→conséquence. C’est-à-dire : non pas l’évocation d’un phénomène, mais son déroulement, ancré dans un temps et un espace mesurables.

Ce livre blanc propose un standard minimal permettant de représenter l’expérience sensorimotrice en tant qu’entité calculable, transmissible et exploitable, afin de permettre la formation de modèles capables d’extraire des régularités locales, et donc des invariants causaux du monde physique.

CONTEXTE RECHERCHE (ÉTAT DE L’ART)

Les travaux récents en modélisation du monde mécanique par réseaux neuronaux confirment que l’apprentissage à partir de transitions est une voie privilégiée vers la généralisation dynamique. Les world models action-conditionnés (Hafner et al., Dreamer V2 / DreamerV3) montrent que la modélisation latente du monde devient plus stable et plus générale lorsque le modèle est entraîné sur des séquences (état_t, action_t → état_t+Δ). Les travaux de Google Robotics, avec RT-1 puis RT-2, suggèrent que la performance de contrôleurs robotique vision-langage dépend crucialement de l’exposition à des données d’interaction réelles, et non seulement d’instructions verbales. Des recherches à l’interface de la manipulation par contact (Berkeley / CMU 2022–2024) ont mis en évidence que les signaux de force et d’effort améliorent considérablement la stabilité des politiques sous frottement, ce qui suggère que la causalité matérielle demande plus que la vision.

Parallèlement, l’avancée des réseaux industriels basés sur TSN et l’horloge gPTP (IEEE 802.1AS) positionne la synchronisation temporelle comme une propriété physique de l’architecture, et non comme un artefact logiciel. Ces évolutions convergent vers une idée commune : le passage à une IA qui comprend la dynamique demande d’expliciter l’alignement temps-espace-action.

PRINCIPE : L’ÉCHANTILLON COMME LOCALITÉ CAUSALE

Dans ce cadre, un échantillon n’est plus un signal brut mais un événement inscrit dans un contexte. Un événement sensoriel doit porter une localisation temporelle (sous forme d’intervalle et non de point), une localisation spatiale (sous forme de distribution sur SE(3) et non d’un triplet exact), une mesure instrumentale en unités SI, et une référence explicite à l’action précédemment appliquée.

Ce modèle est minimal mais suffisant pour permettre l’apprentissage causal. Les invariants physiques, dans cette perspective, ne sont pas donnés : ils émergent de séquences où la proximité spatio-temporelle est préservée.

TIMESTAMP COMME OBJET PHYSIQUE

Un horodatage utile est un opérateur de mesure. Il décrit la granularité de l’outil, la dérive d’horloge, la latence du pipeline et l’incertitude attachée à l’instant déclaré. La valeur numérique elle-même ne contient pas de vérité ; c’est l’erreur associée qui l’ancre dans l’espace physique. Ce principe rend le standard flexible : si un jour les résolutions instrumentales descendent vers de nouvelles échelles temporelles, il suffit de modifier les magnitudes déclarées, non la structure.

RÉFÉRENTIEL SPATIAL COMME VARIÉTÉ

De même, la localisation spatiale est décrite dans un espace de pose rigide (SE(3)), avec une covariance définie sur cette variété. La transformation entre référentiels n’est jamais triviale, et doit être versionnée, afin que les modèles puissent évaluer la cohérence géométrique des transitions. Cette normalisation géométrique rend les données de perception comparables, indépendamment de la nature des capteurs.

LIMITES / NON OBJECTIFS

Ce standard ne vise pas à représenter la sémantique humaine ou la structure conceptuelle du langage. Il ne cherche pas à résoudre le grounding symbolique. Il ne spécifie pas la méthode de contrôle, ni la politique optimale ; il définit uniquement la forme des expériences nécessaires pour que des invariants causaux puissent émerger. Il ne traite pas de segmentation, ni de catégorisation : il ne structure pas des concepts, il structure des mesures.

PROTOCOLE EXPÉRIMENTAL MINIMAL

Une démonstration scientifique minimale peut être effectuée avec un bras robotique sériel équipé d’une caméra, d’un capteur d’effort, et d’une IMU. Trois primitives suffisent : pousser un objet, le glisser, le soulever. Si les échantillons sont enregistrés sous forme de séquences (observation_t, action_t → observation_t+Δ) avec timestamp et pose versionnés, un world model latent doit être capable de prédire l’évolution de la pose, de la vitesse et de la réaction de force à horizon court. La variation de paramètres physiques locaux (p. ex., friction du plateau, masse de l’objet) doit induire des modifications dans l’erreur de prédiction, sans nécessiter une ré-entraînement complet. Cette propriété est falsifiable.

PIPELINE CONCEPTUEL

Acquisition des données → Normalisation spatio-temporelle (intervalle + variance + SE(3)) → Emballage des événements (événement = mesure + action + bande temporelle) → Apprentissage du modèle latent action-conditionné → Apprentissage de la correspondance instruction→action → Déploiement par ajustement local → Évaluation sur prédiction d’évolution dynamique.

EXTENSIBILITÉ AUX RÉGIMES QUANTIQUES

Le standard proposé n’encode aucune granularité spécifique. Il encode la précision instrumentale. Ainsi, si les instruments évoluent vers des résolutions temporelles ou spatiales extrêmement fines, même proches de celles où la mécanique quantique rend la notion de trajectoire classique problématique, la structure ne change pas : seules les valeurs associées à l’incertitude changent. Cela permet au standard de demeurer valide, indépendamment des échelles.

CONCLUSION

Les données symboliques permettent de transmettre des interprétations humaines du monde. Elles ne suffisent pas pour apprendre les processus physiques. Une machine ne pourra devenir autonome dans sa compréhension des phénomènes qu’à la condition d’apprendre à partir de la dynamique elle-même, et non des récits de cette dynamique. Ce livre blanc propose un sous-ensemble minimal de contraintes permettant de rendre les transitions action→conséquence calculables, comparables et apprenables. Ce n’est pas une théorie du monde : c’est une théorie de l’expérience.