[INTERVIEW] Le métier de consultant en data mining par Sandro Saitta

Après l'interview de Julien, expert en web analytics, je vous propose cette fois de découvrir le portrait de Sandro Saitta, consultant en data mining pour le compte de FinScore (à Lausanne, Suisse), l'occasion d'en savoir plus sur un métier passionnant aux très multiples facettes. Vous pouvez notamment le retrouver sur Twitter (@dataminingblog).

Peux-tu te présenter et nous parler de ton parcours ?
Sandro : Je suis consultant en data mining depuis bientôt deux ans maintenant. J'ai commencé à m'intéresser à des projets de data mining dès mon master en informatique que j'ai fait à l'EPFL (Lausanne). J'ai continué avec un doctorat dans le domaine. J'ai aussi appliqué le data mining en finance. J'ai alors choisi le consulting, ce qui me permet de varier les domaines d'application du data mining.

Comment définirais-tu ton métier ?
Le métier de data miner est assez proche de celui de statisticien. De nos jours, les entreprises collectent de plus en plus de données. Cela dit, « plus de données » ne signifie pas pour autant plus de connaissances. Lorsque ces entreprises désirent donner un sens à leurs données, l'utilisation du data mining devient indispensable. C'est à ce moment qu'un data miner entre en scène. Ses tâches consistent principalement à pré-traiter les données (80% du temps) et faire des prédictions en utilisant ces données (20% du temps).

Le data mining est une notion vaste, peuplée d'innombrables anglicismes : peut-on y inclure le traitement informatique de données (data processing), l'analyse statistique de données (data analysis), la « visualisation d'information » (data visualization), voire le « data journalisme » ?
En effet, même en français, on utilise souvent le terme « data mining ». Il se traduit textuellement par « minage de données ». Cela dit, on lui préfère le terme « fouille de données ». Le traitement, l'analyse ainsi que la visualisation des données font partie de ce que l'on peut appeler l'extraction de connaissance (Knowledge Discovery from Database). Il s'agit bien d'une enquête sur les données et on peut donc clairement parler de « data journalisme ».

Selon toi, quels sont les domaines d'application du data mining les plus porteurs aujourd'hui pour entrer facilement dans le monde du travail ?
Je pense qu'un des domaines les plus porteurs est le text mining. Il s'agit de l'application du data mining sur des données textuelles. En effet, très peu de données sont structurées dans des bases de données, par rapport à la quantité de données présentes sous forme de texte (pensez à internet par exemple). Un autre domaine, peut-être moins accessible, car plus complexe, est l'automatisation du data mining. Jusqu'à quel point peut-on automatiser le data mining ?

Quel est le projet de data mining le plus passionnant sur lequel tu as été amené à travailler ?
Personnellement, je pense que le data mining est le meilleur travail au monde :-) Une des raisons est le fait que chaque nouveau projet cache un nouveau domaine d'application qu'il me tarde de découvrir. En particulier, appliquer le data mining dans la finance fut très intéressant. La complexité de ce domaine est certainement une des raisons. Le challenge aussi est énorme. Imaginez pouvoir prédire si la bourse va à la hausse ou à la baisse correctement, ne serait-ce que dans 55% des cas.

Tu es aujourd'hui consultant pour le compte de FinScore. Quelles sont les différences essentielles entre un consultant en data mining et un consultant webanalytic ? Pratiques-tu les deux disciplines ?
Je suis consultant en data mining, mais pas en web analytics. Cela dit, je connais bien le domaine des web analytics pour plusieurs raisons. Premièrement, j'utilise les web analytics et le référencement depuis plusieurs années pour mon blog Data Mining Research. De plus, je travaille actuellement sur un projet de prédiction du comportement des utilisateurs d'un site web. Enfin, le domaine m'intéresse beaucoup et j'ai lu plusieurs livres sur le sujet. Le data mining consiste à analyser et faire des prédictions sur n'importe quel type de données. Dans les webanalytics, on se contente d'analyser les données d'utilisation d'un site web généralement pour l'améliorer.

Notes-tu des différences majeures dans la façon d'appréhender ces métiers en fonction du pays (France vs Suisse par exemple) ?
Il m'est difficile de différencier l'utilisation du data mining en Suisse et en France. Cela dit, comme pour beaucoup d'autres domaines, les Etats Unis sont en avance sur l'Europe. En effet, ils utilisent le data mining beaucoup plus fréquemment que nous. Cela se voit aussi dans leurs offres d'emploi. Les moyennes et grandes entreprises ont vite compris que le data mining était un outil indispensable face à la concurrence. Quelle entreprise ne serait pas intéressée de savoir ce que veulent ses clients ? Ce qu'ils achéteront demain ? Quand ils risquent de partir ?

Quels sont les logiciels de data mining incontournables, et quels sont tes préférés ? Existe-t-il un logiciel puissant, complet et gratuit que tu conseillerais ?
Je ne les connais pas tous, mais dans la catégorie des payants, SAS est mon préféré. Extrêmement rapide face à la concurrence et doté d'un langage de programmation très avancé. Dans le domaine du gratuit, c'est le langage R sans hésitation. Plein de librairies et une grande flexibilité. Comme logiciel gratuit, il existe notament WEKA et RapidMiner.

Quel site et quel ouvrage sur le data mining recommanderais-tu en priorité ?
En ce qui concerne les sites web sur le data mining, le top c'est KDnuggets. Ensuite, il y a plusieurs blogs anglophones très intéressants sur le sujet. Je les ai répertoriés sur mon blog. Pour les livres, je recommande « Introduction to Data Mining » et « Data Mining : Practical Machine Learning Tools and Techniques ».

Quelque chose à ajouter ? Un conseil à donner à ceux qui souhaitent se lancer dans le data mining ?
Si le data mining vous intéresse, lisez des livres sur le sujet et suivez les blogs que vous trouvez intéressants. Cela dit, vous apprendrez mieux par la pratique. Participer aux compétitions sur Kaggle est une bonne idée je pense. Enfin, si vous désirez une courte introduction au data mining avec quelques références, je vous conseille un de mes articles en français sur le sujet.

Merci Sandro !