Vulgarisation par Julien Collonge, Statisticien

1-Introduction

Contrairement à une idée très répandue, les méthodes d’analyse des données ont été élaborées depuis fort longtemps : H. Hoteling posait les fondements dans les années trente en développant les travaux de C. Spearman et K. Pearson qui dataient du début du siècle.

Ces méthodes restaient inabordables pour les praticiens car elles nécessitaient une masse considérable de calculs. Il a fallu attendre l’extraordinaire développement des ordinateurs pour pouvoir les utiliser.

La statistique classique s’est axée sur l’étude d’un nombre restreint de caractères mesurés sur un petit ensemble d’individus (Le terme individu peut désigner, selon les cas, l’employé d’une entreprise, un client, un animal, une ville, etc. Il s’agit toujours de l’entité de base sur laquelle l’observateur réalise un certain nombre de mesures (les caractères)). Elle a développé les notions d’estimations et de tests fondées sur des hypothèses probabilistes très restrictives. Cependant, dans la pratique, les individus observés sont décrits par un grand nombre de caractères. Les méthodes d’analyse des données permettent une étude globale des individus et des variables en utilisant généralement des représentations graphiques suggestives. Les données peuvent être analysées selon plusieurs points de vue. La recherche des ressemblances ou des différences entre individus peut être un des objets de l’analyse : on considère que deux individus se ressemblent lorsque leurs profils selon les différents caractères sont voisins. Il est possible à l’aide d’une méthode factorielle de représenter ces proximités entre individus sur un graphique. Les méthodes de classification permettent de les regrouper en catégories homogènes. La description des relations entre caractères peut être un autre objet de l’analyse : deux caractères sont considérés comme corrélés s’ils varient de la même façon sur les différents individus. Il est possible par exemple de privilégier un ou plusieurs caractères et chercher à expliquer ses variations en fonction de celles des autres. Pour cela on plonge individus et variables dans des espaces géométriques tout en faisant la plus grande économie d’hypothèses. Puis on transforme les données pour les visualiser dans un plan ou les classer en groupes homogènes, et ceci tout en perdant le minimum d’information.

Ces approches multidimensionnelles connaissent une multitude d’applications dans tous les domaines où la description de phénomènes complexes est nécessaire : sciences naturelles, sciences humaines, physiques, marketing, psychologie, etc.

2-Les principales méthodes

La méthode de base en analyse des données a pour objet la description des données contenues dans un tableau individus-caractères numériques : p caractères sont mesurés sur n. Dès que le nombre p de caractères devient supérieur ou égal à quatre, l’étude visuelle devient impossible. Supposons que l’on veuille quand même représenter nos individus sur un graphique plan. Ce que l’on verra sur le dessin sera une configuration déformée de la configuration exacte : les distances entre les n points sur le plan ne peuvent pas être toutes égales aux distances entre les n individus dans l’espace complet à p dimensions. Il y aura donc des distorsions que l’on cherchera à rendre minimale. La meilleure représentation des données au moyen de q caractères s’obtient par une méthode factorielle : la réduction du nombre de caractères ne se fait pas par sélection de certains d’entre eux mais par la construction de nouveaux caractères synthétiques en combinant les caractères initiaux. Ce qui fait la spécificité de cette méthode est qu’elle traite exclusivement de caractères numériques jouant tous le même rôle. Les applications sont aussi nombreuses que diversifiées.

Les méthodes de classification ou de typologie ont pour but de regrouper les individus en un nombre restreint de classes homogènes. Il s’agit de décrire les données en procédant à une réduction du nombre des individus. On distingue deux grands types de classifications. Les méthodes non hiérarchiques qui produisent directement une partition en un nombre fixé de classes. Les méthodes hiérarchiques qui produisent des suites de partitions en classes de plus en plus vastes à l’échelle des célèbres classifications des zoologistes en espèces, genres, familles, ordre, etc.Il s’agit de regrouper les n individus en k classes de telle sorte que les individus d’une même classe soient le plus semblables possible et que les classes soient bien séparées. Ceci suppose la définition d’un critère global mesurant la proximité des individus d’une même classe et donc la qualité d’une partition. On peut ainsi, pour une tarification de prime d’assurance par exemple, distinguer les bons clients des mauvais. Il est aussi possible de mesurer l’effet d’un médicament ou encore l’impact d’une campagne marketing.

 

Certaines méthodes ont pour but d’étudier les relations existantes entre deux (ou plus) groupes de caractères quantitatifs observés sur un même ensemble d’individus. Plus précisément on cherche une combinaison des caractères du premier ensemble et une combinaison des caractères du deuxième qui soient les plus corrélées possible. Précisons ce problème à l’aide d’un exemple : dans une étude portant sur les performances de sauteurs en hauteur, on a relevé des paramètres mesurant les caractéristiques physiques des athlètes (taille, poids, détente horizontale, détente verticale, force des jambes, vitesse, etc). Par ailleurs un jury a noté les athlètes selon la qualité de leurs performances selon certains critères (note de saut, note d’élan, note d’impulsion, note de suspension, etc). Dans quelle mesure les notes données par le jury peuvent-elles être reliées aux caractéristiques objectives des athlètes ?

D’autres méthodes ont pour but l’étude des tableaux de contingence (croisement de deux ou plus caractères nominaux : tableau d’effectifs correspondant à la ventilation des individus selon des caractères qualitatifs). On peut par exemple s’intéresser à la répartition des baccalauréats selon la région et la section. Le but étant d’analyser la structure de dépendance entre régions (ou sections) et d’en faire ressortir les traits principaux.

Certaines techniques sont privilégiées pour l’analyse des données qualitatives, comme par exemple pour le dépouillement des enquêtes. Il est d’usage de séparer les caractères en deux groupes : les caractères actifs dont le tableau disjonctif est seul soumis à une analyse, et les caractères passifs ou illustratifs dont les modalités sont représentées en éléments supplémentaires mais n’ont pas servi aux calculs. Dans un questionnaire, les caractères actifs sont en général ceux qui décrivent plus ou moins objectivement un individu (profession, âge, sexe, etc), les caractères passifs correspondent aux questions constituant le sujet même de l’enquête que l’on veut relier au premier groupe.

Il est également possible de mettre en évidence des liaisons existantes entre un caractère à expliquer et un ensemble de caractères explicatifs. Ou encore de prévoir les modalités du caractère à expliquer selon celles des caractères explicatifs. Par exemple, il est possible de déterminer dans quelle mesure la contamination de poissons (placés dans différents aquariums) est liée à l’intensité de la radio-contamination. On peut également résoudre le problème suivant : est ce que la seule connaissance des caractères explicatifs permet de réaffecter un individu dans son groupe d’appartenance défini par le caractère à expliquer avec un risque d’erreur minimum ? On peut ainsi prédire le risque d’avalanche sur un site ou encore faire du credit-scoring (accord des prêts aux demandeurs qui ont la plus forte probabilité d’être de bons clients).

D’autres méthodes permettent, par exemple, l’aide au diagnostic en médecine, la sélection des clients potentiels en vente par correspondance, de détecter la présence de gisement en recherche minière, etc.

 

Bibliographie

  • Analyse des Données, Probabilités et Statistiques, Saporta, 2006
  • Principal guide to Principal Component Methods in R, Multivariate Analysis II, Kassembara, 2017
  • Analyses factorielles simples et multiples, J. Pagès ; B. Escofier, 2008
  • Statistique : Méthodes pour décrire, expliquer et prévoir, Tenenhaus, 2006

Julien collonge

Docteur en mathématiques appliquées, Julien est statisticien à Atout Plus et met à dispositions des entreprises ses compétences en Data Science : analyse de données et de statistiques, étude et contrôle de gestion, formation.
En savoir plus sur nos prestations en Data Science