Recherchez une offre d'emploi

Thèse Raisonnement Géographique Émergent dans les Modèles d'IA Entraînés par Apprentissage Auto-Supervisé. H/F - 50

Description du poste

École nationale des ponts et chaussées
Ponts - 50
CDD
Publié le 17 Mars 2026

Établissement : École nationale des ponts et chaussées
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : LIGM - Laboratoire d'informatique Gaspard-Monge
Direction de la thèse : Loïc LANDRIEU ORCID 0000000277388141
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-14T23:59:59

Les progrès récents du self-supervised learning à grande échelle ont donné naissance à des modèles de vision et de vision-langage capables d'inférer la localisation géographique d'images avec une précision surprenante. Bien que ces modèles ne soient pas explicitement entraînés pour la géolocalisation, ils parviennent souvent à localiser des images à partir d'indices visuels subtils présents dans l'environnement. Des observations préliminaires suggèrent que leurs représentations latentes s'organisent spontanément selon une structure corrélée à la géographie, laissant penser que l'apprentissage auto-supervisé à grande échelle pourrait conduire à l'émergence d'un modèle statistique implicite de la Terre.

Ce projet de thèse vise à étudier si un raisonnement géographique émerge naturellement dans les modèles fondamentaux, et comment ce phénomène peut être caractérisé, interprété et exploité. L'hypothèse centrale est que les modèles auto-supervisés de grande taille encodent l'information spatiale dans des représentations latentes structurées reflétant l'organisation géographique du monde réel. Comprendre cette structure pourrait éclairer des questions plus larges sur les capacités émergentes de l'intelligence artificielle et sur la convergence des représentations apprises.

La première partie du projet consistera à mener une étude empirique systématique de la structure géographique dans les espaces latents de modèles visuels et multimodaux modernes. En analysant les embeddings produits par des modèles tels que CLIP, DINO ou des modèles vision-langage sur de grands ensembles d'images géoréférencées, il s'agira d'évaluer dans quelle mesure les relations géographiques émergent sans supervision explicite. Des techniques telles que les classifieurs de sondage (probing), la réduction de dimension, le clustering et l'analyse de variétés seront utilisées afin de quantifier l'information géographique contenue dans les représentations latentes.

Le second axe de recherche portera sur l'interprétabilité. À l'aide d'outils issus de l'interprétabilité mécanistique, tels que les autoencodeurs parcimonieux (sparse autoencoders) ou les méthodes de décomposition de caractéristiques, le projet cherchera à identifier si certaines directions latentes correspondent à des facteurs géographiques interprétables, comme les zones climatiques, les types de végétation ou certains marqueurs culturels. Cette analyse permettra de déterminer si les performances en géolocalisation résultent d'un raisonnement explicite fondé sur des indices visuels ou de corrélations statistiques implicites apprises lors du pré-entraînement.

Enfin, le projet explorera comment ces représentations géographiques émergentes peuvent être exploitées pour améliorer les systèmes de géolocalisation. Il s'agira notamment d'étudier des approches probabilistes permettant de modéliser l'incertitude géographique, ainsi que des méthodes permettant aux modèles d'interagir avec des sources de connaissances géographiques externes telles que des cartes ou des bases de données spatiales. Ces approches pourraient conduire à des systèmes de géolocalisation à la fois plus précis et plus interprétables.

Au-delà de la tâche spécifique de géolocalisation d'images, cette recherche contribuera à une meilleure compréhension de la manière dont l'apprentissage auto-supervisé à grande échelle organise les connaissances sur le monde. En étudiant l'émergence de structures géographiques dans les représentations latentes, ce projet vise à apporter de nouveaux éclairages sur l'apprentissage de représentations, l'interprétabilité des modèles et les mécanismes à l'origine des capacités émergentes des modèles fondamentaux modernes.

Les modèles fondamentaux de vision et de vision-langage, entraînés sur de vastes ensembles de données à l'aide d'objectifs auto-supervisés, ont démontré de nombreuses capacités émergentes. Ces modèles apprennent des représentations riches qui peuvent être réutilisées pour une grande variété de tâches sans supervision explicite.

Parallèlement, la géolocalisation d'images constitue un problème particulièrement exigeant, car elle requiert la capacité d'exploiter des indices visuels subtils (végétation, architecture, signalisation, climat) et de les relier à une connaissance globale du monde. Des travaux récents ont montré que certaines représentations latentes issues de modèles de vision présentent des corrélations fortes avec la localisation géographique, suggérant l'émergence d'une organisation spatiale implicite.

Cependant, les mécanismes à l'origine de cette capacité restent largement méconnus. Comprendre comment l'information géographique est encodée dans les représentations latentes constitue un enjeu scientifique important, à la fois pour l'étude des capacités émergentes des modèles d'apprentissage profond et pour le développement de systèmes d'intelligence artificielle appliqués aux données géospatiales

- Étudier & analyser l'émergence de capacités de raisonnement géographique dans les modèles de vision et vision-langage entraînés par apprentissage auto-supervisé.
- Eploiter ces représentations pour améliorer la géolocalisation d'images et l'interprétabilité des modèles.

Le projet combinera analyse empirique des représentations et développement de nouveaux modèles.

Dans un premier temps, les espaces latents de modèles de vision et de vision-langage existants seront analysés à partir de grandes bases d'images géoréférencées. Des techniques d'analyse de représentations telles que les classifieurs de sondage (probing), la réduction de dimension, le clustering ou l'analyse de variétés seront utilisées afin d'évaluer dans quelle mesure l'information géographique est encodée dans ces représentations.

Dans un second temps, des méthodes issues de l'interprétabilité des réseaux de neurones seront mobilisées afin d'identifier des facteurs latents interprétables. Des approches telles que les autoencodeurs clairsemés (sparse autoencoders) permettront d'explorer si certaines directions de l'espace latent correspondent à des caractéristiques géographiques comme les zones climatiques, les types de végétation ou certains marqueurs culturels.

Enfin, ces analyses serviront de base au développement de nouveaux modèles de géolocalisation probabiliste capables de prédire des distributions spatiales plutôt que des localisations ponctuelles. Des approches permettant d'intégrer des sources de connaissances géographiques externes, comme des cartes ou des bases de données spatiales, pourront également être étudiées.