Visualiser 2500 ans d'Histoire en 100 secondes en explorant Wikipedia

Représenter graphiquement l'instantanéité du Web est une tendance très prisée des développeurs et designers. Captivant visuellement mais surtout instructif, l'analyse du Web temps réel donne de nombreuses clés sur le rapport de l'humain à l'information et aux réseaux sociaux. Pourtant dans ce domaine, un service reste particulièrement en retrait, plus avare en données statistiques ou analytiques : il s'agit de Wikipedia.

Souvenons nous de feu Wikirank (mais je vous proposerais des alternatives plus ou moins pérennes à cet outil dans un prochain article).

Pour pallier à ce manque, les développeurs anglais Gareth Lloyd et Tom Martin se sont penchés sur les représentations réalisables à partir des données de l'encyclopédie en ligne, plus spécifiquement en terme de géolocalisation. Leur projet repose sur l'élaboration d'un script exploitant les informations que fournissent certains articles : la localisation géographique d'évènements historiques.

La part d'articles répondant à cette condition est assez conséquente puisque les deux ingénieurs ont dénombré 424'171 pages correspondant à 30 Go de data et des références à 14'238 évènements historiques correctement géolocalisés (ils déplorent par ailleurs plus de 5700 articles supplémentaires aux coordonnées invalides).

2500 ans d'Histoire en 100 secondes avec Wikipedia 2500 ans d'Histoire en 100 secondes avec Wikipedia

On obtient alors une série de données à deux dimensions : dans l'espace et le temps, une visualisation dynamique de l'Histoire du Monde, dans le référentiel Wikipedia (qui est à priori relativement proche de ce qu'on trouve dans un manuel d'histoire). On observe ainsi la superficie et l'évolution chronologique du Monde connu : d'abord l'Europe et l'Asie médiévales puis "l'explosion" de l'Amérique du Nord au 18ème siècle etc...

Mais on identifie aussi les limites du projet en observant la répartition et la densité de l'ensemble des évènements historiques récupérés sur une carte statique en heatmap, le "vide" relatif de la France, de l'Italie ou de l'Allemagne est mis en évidence. Les concepteurs se sont en effet focalisés exclusivement sur les pages géolocalisés du Wikipedia anglophone : mécaniquement, cela met en retrait les pays ayant un grand nombre d'articles dans leur propre langue. On observe le phénomène inverse avec la Pologne : les articles sont particulièrement nombreux et géolocalisés (cela s'expliquerait par l'élaboration automatisée d'articles, à partir d'une base de données).

2500 ans d'Histoire en 100 secondes avec Wikipedia

Le projet est opensource : les données et l'algorithme sont mis à la disposition de chacun, ce qui est forcément très appréciable (Cf. le paragraphe "datasets" du billet de blog consacré à l'expérience). En tout cas, ce type de visualisation aura suscité des vocations comme cet exemple de représentation en timeline. Si le sujet vous inspire, n'hésitez pas à partager vos idées et vos projets !