Journée de découverte - Exploration des Données Multidimensionnelles

Formation

À Levallois-Perret

500 € HT

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Description

  • Typologie

    Formation

  • Dirigé à

    Pour professionnels

  • Lieu

    Levallois-perret

  • Durée

    1 Jour

Objectifs: Découvrir les principales méthodes multidimensionnelles (analyse en composantes principales, analyse des correspondances, analyse discriminante …), en comprendre l'intérêt dans de nombreuses problématiques. Destinataires: Toute personne souhaitant découvrir les analyses multidimensionnelles et en comprendre l'intérêt dans de nombreuses problématiques métiers.

Précisions importantes

Modalité Formation continue

Les sites et dates disponibles

Lieu

Date de début

Levallois-Perret ((92) Hauts-de-Seine)
Voir plan
Rue Collange, 6, 92300

Date de début

Consulter

Questions / Réponses

Ajoutez votre question

Nos conseillers et autres utilisateurs pourront vous répondre

À qui souhaitez-vous addresser votre question?

Saisissez vos coordonnées pour recevoir une réponse

Nous ne publierons que votre nom et votre question

Les Avis

Le programme

Introduction L'observation des phénomènes aussi bien scientifiques ou technologiques que sociologiques ou médicaux, conduit souvent à la construction de tableaux de données. Dans ces tableaux, les colonnes représentent les variables caractérisant les individus qui occupent quant à eux les lignes; on parle ainsi de tableaux individus-variables dont la dimension peut devenir rapidement importante, en fonction de la diversité des sujets abordés. Il devient alors nécessaire de disposer d'un ensemble de méthodes permettant de synthétiser, de la manière la plus objective possible, l'information issue du recueil des données. Cette synthèse produit généralement des cartes, représentations graphiques planes restituant au mieux les similarités entre les individus. La projection des variables dans ces mêmes cartes permet d'expliquer les différences entre les individus. Les représentations graphiques sont des synthèses qui doivent aider ingénieurs et chercheurs à dégager des éléments d'interprétation : c'est le but de l'analyse multidimensionnelle des données. Les différentes méthodes disponibles (Fig.1) dépendent naturellement de la nature des variables. Les plus anciennes a avoir été développées s'intéressent aux variables quantitatives; elle trouvent leur fondement au début du XXème siècle, époque où l'informatique ne permettait pas les calculs d'aujourd'hui. Ces méthodes sont à l'initiative des psychométriciens.


Figure 1. Quelle méthode choisir ?
Le choix de la méthode dépend naturellement de la nature quantitative et/ou qualitative des variables et des objectifs attendus. La description des données quantitatives permet d'établir des cartes qui restituent au mieux les distances entre les individus et les corrélations entre les variables : c'est l'objet de l'analyse en composantes principales. La description des données qualitatives donne lieu à l'identification de correspondances fortes entre les modalités de deux ou plusieurs variables qualitatives : c'est l'objet de l'analyse des correspondances simples ou multiples. On peut également chercher à établir une relation entre les modalités d'une variable qualitative et un ensemble de variables quantitatives : c'est l'objet de l'analyse discriminante, méthode classée ici parmi les méthodes explicatives.

La vulgarisation des outils informatiques a permis une diffusion plus large de ces méthodes dans la dernière partie du XXème siècle mais paradoxalement, il existe bien des domaines industriels où on ne les utilise pas encore, sans doute à cause de l'approche trop mathématique et statistique que l'on associe à leur diffusion. Pourtant quelques notions simples permettent leur mise en œuvre, y compris à l'aide d'un tableur : la notion de distance euclidienne et la notion de projection, découvertes bien avant le lycée, permettent de construire des arbres de classification (Fig.2) ou des cartes de projection des individus (Fig.3). Des notions complémentaires telles que la corrélation entre variables peuvent être elles aussi abordées de façon géométrique (Fig.4). Tous les outils d'aide à l'interprétation des résultats relèvent ensuite du bon sens.


Figure 2. Résultat d'une méthode de classification ascendante hiérarchique.
En restituant sous forme de dendrogramme ou arbre de classification les distances euclidiennes entre des individus pouvant être caractérisés par un grand nombre de variables, on peut matérialiser la présence de classes qu'il convient ensuite de décrire à partir des variables de base. On distingue ici trois catégories de voitures selon les dénominations actuelles des journaux automobiles : les citadines ou les petites voitures, les voitures compactes ou familiales, et enfin les routières ou les voitures à forte cylindrée et forte puissance.


Figure 3. Carte des individus obtenue par une analyse en composantes principales.
Les individus caractérisés par de nombreuses variables sont projetés dans un plan dont la définition doit respecter au mieux la notion de distance entre les individus. En associant ainsi la notion de projection à celle de distance et de variance, on construit facilement la carte des individus. Des outils d'aide à l'interprétation permettent ensuite, au travers de l'inertie, de chiffrer le pourcentage d'information restitué par une carte.


Figure 4. Cercle des corrélation obtenu par une analyse en composantes principales.
La projection des variables permet de restituer leur corrélation et l'interprétation de cette nouvelle carte fait appel à la notion d'angle. En superposant ou en juxtaposant la carte des variables et celle des individus, on peut expliquer les similitudes ou les distances entre individus à partir des variables.


Le plan de la journée La construction de la synthèse d'un tableau de données sous forme graphique ou numérique obéit à une démarche méthodologique. Chaque étape de la démarche fait appel à des notions de base et y associe des équations simples dont il convient de démystifier l'usage pour que chacun puisse apprécier le bien fondé de la méthode et son potentiel.


  • Redécouvrir des notions de base


  • La première notion de base est la distance euclidienne qui, à elle seule, permet la construction d'un dendrogramme, encore appelé arbre de classification, à partir d'une méthode de classification ascendante hiérarchique. Il est alors possible d'identifier de façon objective des regroupements d'individus (Fig.2). On illustre ainsi l'objectif de description des méthodes d'analyse multidimensionnelle des données. On rappellera ensuite la notion de projection d'un point sur une droite, en insistant sur les propriétés de la projection dite orthogonale. Différentes animations permettront de s'apercevoir que certains axes de projection sont plus informatifs que d'autres pour les utilisateurs (Fig.3). On terminera enfin cette partie par des rappels sur la notion de corrélation entre deux variables, qui est en quelque sorte le pendant de la distance entre deux individus. On associera à cette notion statistique la notion d'angle (Fig.4), sans doute plus facile à interpréter. La notion de variance permettra de définir un critère à optimiser lors de la mise en œuvre de différentes méthodes de projection telles que l'analyse en composantes principales ou certaines formes de l'analyse discriminante.

  • Associer des notions de base pour bâtir une méthode


  • Pour obtenir une première synthèse de l'information contenue dans un tableau de données multidimensionnelles, on peut envisager de projeter les individus dans un plan, afin d'obtenir une carte des individus. Le critère de construction de cette carte est naturellement de respecter la distance euclidienne entre les individus. En associant la notion de variance des points projetés aux notions de distance et de projection, on obtient ainsi une première représentation graphique, facile à obtenir et riche d'enseignements. Il convient d'expliquer ensuite les similitudes et les distances entre individus. Il faut alors faire appel aux variables que l'on projettera également afin de faire ressortir, au travers de la notion d'angle, leurs corrélations. L'association des deux projections, celle des individus et des variables, est également connue sous le nom de représentation conjointe ou biplot. En appliquant cette approche pragmatique, point n'est besoin de diagonaliser la matrice des corrélations ! C'est ainsi que l'on peut mener à bien une analyse en composantes principales.
    De même, lorsque les individus sont caractérisés par deux ou plusieurs variables qualitatives présentant chacune différentes modalités, il est possible d'adapter les outils précédents. Après avoir construit un tableau de contingence afin de dénombrer le nombre d'individus caractérisés par chaque couple de modalités, on compare les profils de chacune de modalités représentant les lignes et les colonnes du tableau de contingence. Deux profils voisins seront représentés par des points proches dans une cartographie. Les points seront d'autant plus éloignés que les profils seront différents (Fig.5). La distance utilisée en ici la distance du khi-deux. C'est ainsi que l'on peut mener à bien une analyse des correspondances simples.


    Figure 5. Projection des profils dans une analyse des correspondances simples.
    Les individus d'un tableau de données sont caractérisés par deux variables qualitatives : la fonction occupée lors du premier emploi et le secteur économique de l'entreprise. Il est possible d'établir, par exemple, le profil de chacune des modalités relatives à la fonction occupée lors du premier emploi. On constate immédiatement que les fonctions F2 et F4 ont des profils proches. Les points représentant ces profils seront donc proches dans le plan de projection. Par ailleurs, les fonctions F3 et F5 ont des profils radicalement différents. Le points représentatifs de ces deux profils sont les plus éloignés.

    Quand on cherche à expliquer les modalités d'une variable qualitative à partir d'un ensemble de variables quantitatives, on peut appliquer encore une fois le principe de projection associé à la notion de variance. On cherche alors un espace de projection qui permet de distinguer, au mieux, chacun de groupes représentés par les modalités de la variable qualitative. Après avoir déterminé le meilleur sous-espace de projection associé à la notion de score, il est possible d'affecter a priori à un groupe donné un nouvel individu caractérisé par des variables quantitatives. Cette affection se traduit par une probabilité, c'est-à-dire un nombre compris entre 0 et 1 qui traduit un degré de croyance qu'un nouvel individu appartienne à un groupe donné. Il s'agit là des bases de l'analyse discriminante (Fig.6), méthode qui a connu de nombreux développements.


    Figure 6. Le principe de base de l'analyse discriminante.
    Un certain nombre d'individus sont caractérisés par deux variables quantitatives X1 et X2 et par une variable qualitative dont les modalités permettent de constituer trois groupes. La figure montre qu'aucune des variables initiales ne permet de distinguer les trois groupes. Par contre, il est possible de définir un axe particulier pour lequel les projections orthogonales des individus respectent la distinction des groupes. La valeur des projections sur cet axe représentent un score. Il est alors possible d'attribuer à un nouvel individu une probabilité d'appartenir à un groupe grâce au score qu'il obtiendrait à l'aide des valeurs des variables X1 et X2 le caractérisant.

  • Aider l'utilisateur à interpréter les différentes cartographies


  • Par définition, une projection ne restitue jamais l'intégralité des informations contenues dans le tableau initial de données. Mais il convient d'accepter de perdre un peu d'information pour gagner en signification. Différentes approches permettent d'apprécier la qualité de la restitution obtenue à partir d'une projection, depuis la définition des inerties, c'est-à-dire la quantité d'information restituée, jusqu'à la contribution des individus à la construction d'un plan de projection. Il convient donc de préciser la démarche à adopter pour établir et interpréter ces différents outils d'aide à la lecture de la carte des individus et de la carte des variables. On présentera simplement à ce niveau quelques outils complémentaires issus des méthodes PLS, tels que l'ellipse de Hotelling ou la notion de distance au modèle. On introduira également le rôle des variables et des individus supplémentaires pour aborder le caractère explicatif de l'analyse en composantes principales.

  • Aller plus loin, y compris en présence de données manquantes


  • Il arrive parfois que pour quelques individus l'intégralité des variables ne soient pas renseignées : on est donc en présence de données manquantes. Doit-on pour autant perdre l'information disponible pour ces individus ? L'algorithme NIPALS, rattaché aux méthodes PLS, permet d'apporter des éléments de réponse et d'offrir de nouvelles voies à l'analyse multidimensionnelle des données. Basé sur la décomposition d'un tableau aux valeurs singulières, il permet au travers d'une succession de régressions linéaires simples d'obtenir des projections d'individus et de variables, y compris en présence de données manquantes (Fig.7).


    Figure 7. Comment gérer les données manquantes ?
    L'algorithme NIPALS représente le complément indispensable aux méthodes plus traditionnelles d'analyse en composantes principales. La construction des cartes s'opère de manière itérative et offre de nouveaux outils d'aide à l'interprétation.



Informations complémentaires

Information sur le prix :
Observations :
Stage en entreprise :

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Journée de découverte - Exploration des Données Multidimensionnelles

500 € HT