Cartographie du Traitement des Données Statistiques

Formation

À Levallois-Perret

2 000 € HT

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Description

  • Typologie

    Formation

  • Dirigé à

    Pour professionnels

  • Lieu

    Levallois-perret

  • Durée

    4 Jours

Objectifs: Découvrir un panorama complet des méthodes statistiques. Savoir quelle méthode utiliser en fonction des données disponibles et des objectifs à atteindre. Destinataires: De part l'exhaustivité des thèmes abordés, la formation s'adresse aussi bien aux statisticiens occasionnels qu'aux praticiens chevronnées qui ne manqueront pas d'y découvrir de nouvelles pistes de réflexion.

Précisions importantes

Modalité Formation continue

Les sites et dates disponibles

Lieu

Date de début

Levallois-Perret ((92) Hauts-de-Seine)
Voir plan
Rue Collange, 6, 92300

Date de début

Consulter

À propos de cette formation

Connaissances de base en statistique.

Questions / Réponses

Ajoutez votre question

Nos conseillers et autres utilisateurs pourront vous répondre

À qui souhaitez-vous addresser votre question?

Saisissez vos coordonnées pour recevoir une réponse

Nous ne publierons que votre nom et votre question

Les Avis

Le programme

Jour 1 - Panorama raisonné des méthodes statistiques

- Le cadre statistique

  • Introduction
    Le volume croissant des données a fait évoluer en continu les techniques de traitement : Statistique Mathématique (1935) puis Analyse des Données (1970) et enfin Data mining (2000). Les deux problèmes permanents du traitement des données : « explorer pour comprendre » et « modéliser pour prévoir », ont évolué en même temps que les outils de résolution.
  • Le raisonnement statistique et son évolution
    On distingue les cas où les données sont collectées pour
  • répondre à une question particulière : les tests, l'estimation, l'ajustement d'un modèle; c'est le royaume de la loi normale, des moindres carrés, des analyses de variance, du contrôle de qualité, etc.
  • comprendre un phénomène : les observations deviennent les points d'un nuage et la compréhension du phénomène passe par l'analyse de sa configuration, soit sur des graphiques, soit en classant les points par ressemblance. On fera appel ici à l'analyse descriptive multidimensionnelle.
  • amasser l'information : des montagnes de données sont stockées de façon plus ou moins cohérente dans des entrepôts et on sait qu'elles contiennent de l'information utilisable mais cachée. C'est le domaine des algorithmes d'exploration.

    Dans tous les cas, soit il existera dans les données un paramètre privilégié symbolisé par « y » (problème supervisé), soit il n?existe pas de variable « y » (problème non supervisé).

    - Panorama des méthodes dans leur cadre
  • Cartographie générale
    La nature des variables observées détermine les méthodes de calcul disponibles pour la résolution des problèmes. Il y a essentiellement deux types de variables : les quantitatives et les qualitatives. La frontière est-elle si claire ? S'il s'agit de modéliser pour prévoir, on aborde les problèmes de régression et ceux de discrimination, tous avec leurs nombreuses variantes. S'il s'agit d'explorer pour comprendre, on dispose des méthodes factorielles et des méthodes de classification. Les caractéristiques principales qui classent les méthodes sont les suivantes : linéaires ou non (mais beaucoup de problèmes sont linéarisables) - Paramétriques ou non - Moindres carrés ou maximum de vraisemblance ? La solution cherchée aura-t-elle une expression analytique ou non ? Est-ce que l'on accepte une solution boîte noire ou non ? Les méthodes abordées ici : régression logistique, analyse de la variance, méthodes PLS, arbres de segmentation, analyses des correspondances, réseaux de neurones, etc.
  • Les multiples spécialisations métiers
    Parallèlement aux méthodes générales, des techniques se spécialisent selon les métiers. Tour d'horizon : les plans d'expériences et l'analyse de la variance; le contrôle de qualité et la maîtrise statistique des processus; les séries chronologiques et l'économétrie, etc. Plus récemment, on voit émerger le traitement statistique des données non structurées : les textes, les images, les sites Web, etc.


    Jour 2 - Préparer les données pour décider

    - Gérer et préparer les données
  • Introduction
    Le pré-traitement des données est fonction du traitement à réaliser. D'une façon générale, environ 80% du travail avant d'arriver à des résultats concerne la préparation des données. Il faut aussi évaluer le poids du pré-traitement dans les logiciels.
  • Gérer les données
    Données manquantes : les non-exprimés; les non-observables; les ne-sait-pas; les données perdues; les erreurs; etc. Supprimer (ignorer), estimer ou imputer ?
    Données aberrantes / atypiques : Aberrantes par rapport à quoi ? Données aberrantes cachées ou visibles. Que faire des données aberrantes et atypiques ?
    Transformations, codages et recodages de variables : Les données doivent satisfaire aux conditions du traitement. Les transformations pour « normaliser » les distributions ou linéariser les liaisons. Le découpage en classes d'une variable continue selon le contexte (supervisé ou non). L'intérêt du découpage en classes de p variables continues; l'intérêt de la quantification de p variables nominales; etc.
    Sélection de variables et d'individus : Le principe de parcimonie pour les modèles à ajuster; Sélection d'axes factoriels. Typologie opérationnelle des individus.
    Discussion : Quelle différence entre pré-traitement et traitement statistique ?

    - Exploiter les données pour décider
  • Présentation
    Enjeu de tout traitement : comprendre d'abord et décider ensuite. On distingue deux démarches : l'estimation et l'ajustement d'un modèle.
  • Estimation et test d'hypothèses
    Tout repose sur la méthode d'échantillonnage. Que sont le biais, la précision et l'efficacité ? Test d'hypothèse et intervalle de confiance, est-ce différent ? Tests paramétriques et non paramétriques. Tests d'ajustement. Une question lancinante : quelle taille d'échantillon faut-il choisir ?
  • Modélisation d'un phénomène
    La régression linéaire servira de base à la présentation. Son extension, le modèle linéaire général a un champ d'application très vaste. On poursuivra par les méthodes non linéaires, puis non paramétriques, et enfin non analytiques. On finira par les modèles où plusieurs variables « y » sont « latentes », c'est-à-dire déduites sans être observables ! Peut-on comparer des modèles et dire que l'un est meilleur que l'autre - Le principe de parcimonie et l'aide de certains critères.
  • Validation des résultats
    Les hypothèses classiques (normalité, indépendance, etc.) permettent d'évaluer la validité et la précision d'une décision ou d'un modèle : tests sur les coefficients, rejet ou non de certaines variables, appréciation des résidus du modèle, etc. La validation peut également s'appuyer sur les observations (Jackknife, Bootstrap, validation croisée).

    Jour 3 - Explorer, décrire et synthétiser l'information

    - La description multidimensionnelle
  • Introduction et panorama
    Dans les graphiques usuels et les statistiques élémentaires (comme la moyenne ou le coefficient de corrélation), il y a de l'information à découvrir mais aussi des pièges qu'il faut éviter. Il y a souvent intérêt à travailler sur plusieurs paramètres à la fois (exemple : détecter un point aberrant invisible sur les variables prises séparément).
  • Les analyses factorielles
    Introduction des plans de visualisation : un principe géométrique simple pour une technique d'exploration très puissante : les Analyses en Composantes Principales (ACP), les Analyses Factorielles des Correspondances (AFC) et les Analyses des Correspondances Multiples (ACM) fonctionnent sur le même principe pour des variables de types différents. La grande souplesse de ces analyses provient de l'exploitation des rôles complémentaires des variables actives et des variables illustratives. Les analyses factorielles sont souvent aussi des intermédiaires de calcul : soit pour réduire le nombre de variables et les transformer en nouvelles variables exploitables (les facteurs) utilisables dans d'autres méthodes, soit pour éliminer les perturbations purement aléatoires qui brouillent les données.

    - La synthèse multidimensionnelle
  • Classifications et combinaison des méthodes multivariées
    Créer des classes est une opération fondamentale et permanente du raisonnement humain. C'est l'opération reine de la synthèse statistique. On peut soit faire une partition de l'ensemble des objets, soit construire un arbre hiérarchique qui emboîte des partitions les unes dans les autres. Partitions et arbres hiérarchiques se combinent en fait dans des algorithmes efficaces pour la classification des grands ensembles de données. La classification n'est pas une fin en soi : elle doit s'accompagner d'une caractérisation statistique approfondie du contenu des classes. On aboutit alors à une typologie des objets.
  • Data mining
    Explorer et découvrir de l'information pertinente dans les grands volumes de données, c'est le rôle du Data mining avec des outils classiques ou des méthodes spécifiques comme les Réseaux de Neurones, les Arbres de Segmentation, les Règles d'Association. Les entreprises amassent de l'information de plus en plus sous forme de données non numériques et non structurées (textes, images, Web, etc.) qui constituent de nouveaux gisements de données à exploiter.

    Jour 4 - Modéliser, maîtriser et prévoir

    - Les modèles classiques confrontés à la concurrence
    Les deux problèmes majeurs de la statistique sont la modélisation des variables quantitatives (ou régression) et la modélisation des variables qualitatives (ou discrimination). Mais les techniques de résolution sont nombreuses?
  • Les méthodes de régression en lice
    Il existe de nombreuses façons de réaliser une régression, c'est à dire la modélisation et prévision d'un paramètre « y » quantitatif en fonction de variables « x ». Outre la classique régression linéaire multiple, on peut par exemple invoquer la régression PLS, les réseaux de neurones et la régression non paramétrique par arbre de segmentation. Toutes ces méthodes sont-elles concurrentes ? On comparera les propriétés des méthodes et leurs champs d'application respectifs.
  • Les méthodes de discrimination en lice
    La modélisation d'un paramètre « y » qualitatif est dominée par la méthode d'analyse discriminante linéaire de Fisher. Une des applications majeures en est la calcul des fonctions de score. Mais on peut utiliser aussi les arbres de segmentation, la régression logistique, l'analyse discriminante PLS ou les réseaux de neurones. Ces techniques ont des propriétés très variées et s'appliquent sous des conditions bien différentes. Peut-on tracer des frontières claires ?

    - Quelques spécialisations métiers
    Parallèlement aux méthodes générales de la statistique, des « spécialisations » se sont développées pour résoudre efficacement des problèmes particuliers, rencontrés d'ailleurs dans des secteurs d'activités très larges.
  • Les plans d'expériences
    Ils ont été conçus pour les agronomes mais ont trouvé ensuite un large champ d?application dans l?industrie : comment minimiser le nombre d?observations tout en maximisant les informations à en tirer ? Visite guidée des techniques principales.
  • Le contrôle de qualité
    Avec les plans d'expériences, c'est un domaine privilégié de la statistique industrielle. Les différentes cartes de contrôle, la capabilité des processus font partie de la boîte à outils statistiques dévolus à la « maîtrise des processus ».
  • Les séries chronologiques
    Et quand le temps lui-même est considéré comme le paramètre essentiel, c'est vers la modélisation statistique des séries chronologiques que l'on se tourne. On tracera un chemin clair dans l'univers très spécialisé des modèles d'ajustement et de prévision : tendances, lissages, saisonnalités, stationnarité, modèles autorégressifs et moyennes mobiles, etc.

Informations complémentaires

Information sur le prix :
Observations :
Stage en entreprise :
Nombre d'élèves par classe : 8

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Cartographie du Traitement des Données Statistiques

2 000 € HT