Les amis de mes amis sont directeurs de thèse

This post was kindly contributed by Baptiste Coulmont » R - go there to comment and to read the full post.

Voici plusieurs graphes établis à partir des codirections de thèse en France.

math-reseau
Les couleurs indiquent les disciplines des directeurs.

Et l’on constate que les disciplines “proches” (socio / histoire) ont tendance à se retrouver à proximité sur le graphique.
socio-reseau

On peut s’intéresser de plus près aux thèses codirigées inscrites dans une discipline particulière, par exemple, au hasard, la sociologie. [cliquez pour voir en grand]
socio-reseau
Dans ce dernier graphique, les couleurs placent ensemble des individus que l’algorithme walktrap.community a placé dans la même “communauté”. Globalement “ça fait sens”. Et l’on ne remerciera jamais assez Nicky Le Feuvre de servir de “bridge” entre des mondes distincts.

Le même graphique pour l’histoire, pour la philosophie et directement en images pour l’économie
economie-reseau

&npsb;

Comment ont été construits ces graphes :

Grâce à @cynorrhodon (qui avait étudié la longueur des titres de thèse), j’ai récupéré des informations sur plus de 315 000 thèses françaises (oui, 315 000). Parmi ces thèses, un peu plus de 38 000 thèses sont effectuées ou ont été effectuées en codirection. En général, cela implique deux directeurs ou directrices de thèse, mais parfois trois ou quatre. Très très rarement plus.
Chaque thèse est associée à une discipline au moins, parfois deux ou trois.
La base ainsi constituée est relativement sale, et il a fallu la nettoyer un peu, en normalisant les noms et prénoms. Ceci fut fait de manière automatisée et rapide, sans chercher à dissocier “Jean Dupont” professeur de Mathématiques à Rennes 2 et “Jean Dupont” professeur de sociologie à Montpellier 3. J’espère qu’ils ne sont pas très nombreux à être ainsi homonymes. De même je n’ai pas cherché à indiquer que J. Dupont, professeur de mathématiques à Montpellier 3 est la même personne que Jean Dupont professeur de mathématiques à Montpellier 3.
Se posait ensuite un problème d’association, entre une personne et une discipline. Un seul exemple, Stéphane Beaud, sociologue, apparaissait 7 fois comme “sociologues”, et à une reprise comme “Sciences de la société”. Julia Kristeva apparaissait 15 fois comme “littérature française” et sinon sous de multiples autres disciplines. J’ai donc considéré que la discipline à retenir était celle qui était le plus souvent associée avec une personne.
Le réseau comprenait un grand nombre de liens et de personnes. J’ai donc réduit ce réseau aux individus qui avaient au moins N liens, et je n’ai gardé que la plus grosse composante (pour produire les graphes représentés).
Il y a un grand nombre de disciplines différentes, plus de 4 400. Parfois un intitulé généraliste est proposé : “Sociologie” ou “Chimie”, parfois, c’est un indicateur très précis, comme “Anthropologie psychanalytique et pratiques cliniques du corps” ou “Chimie organique, minerale, analytique, industrielle” ou encore (sans correction) “Ingenierie de la cognition, de linteraction, de lapprentissage et de la creation Sciences du langage”. Pour associer des couleurs aux points, je cherche donc la présence d’une chaine de caractère dans la discipline. “Socio” pour tout ce qui est sociologie, socioanthropologie… “politi” pour tout ce qui est science politique, sciences politiques.

Le graphique spécifique à la sociologie illustre certaines des difficultés : l’on repèrera que des individus identiques apparaissent sous deux formes nominales… et sont donc considérés comme deux individus différents. Je n’ai gardé que les individus ayant participé à deux codirections ou plus (les individus qui n’ont participé qu’à une seule codirection ont disparu).