Apprentissage statistique et données massives
Auteurs : MAUMY-BERTRAND Myriam, SAPORTA Gilbert, THOMAS-AGNAN Christine
La numérisation du monde a pour conséquence la mise à disposition de masses de données inédites, notamment celles provenant du web.
La statistique qui s’est développée autrefois dans un contexte de rareté des données fait face à de nouveaux défis. Donner du sens aux données, développer des algorithmes prédictifs sans nécessairement avoir de modèle génératif, tels sont quelques-uns des objectifs de l’apprentissage statistique. L’apport d’autres disciplines – informatique et optimisation en particulier – est essentiel compte tenu de la nécessité de traiter rapidement les volumes de données impliqués.
On distingue l’apprentissage supervisé, où l’objectif est de prévoir une réponse à partir de prédicteurs, de l’apprentissage non supervisé, qui recherche des structures et des formes sans chercher à prévoir une réponse particulière.
Depuis les réseaux de neurones jusqu’aux forêts aléatoires, en passant par les séparateurs à vaste marge (SVM), de nombreux algorithmes ont été développés, ne reposant que faiblement sur des hypothèses probabilistes.
Dans ce contexte, la validation, la capacité de généralisation à de nouvelles données et le passage à l’échelle sont donc essentiels.
Date de parution : 05-2018
Ouvrage de 536 p.
16.2x24.1 cm