Analyse de données
Les tableaux de données
L'analyse concerne des tableaux de données issus des enquêtes par sondage ou des statistiques privées ou publiques.
Ces tableaux croisent pour la population observée des propriétés de la population ( lignes du tableau ) et les options, caractéristiques
ou position par rapport à la question étudiée (colonnes du tableau).
Les écarts par rapport à la "norme"
Le système détermine des écarts entre les observations réelles et la distribution théorique de neutralité
(absence de liens entre les colonnes et les lignes) et évalue ces écarts en appliquant une pondération. C'est le calcul du Khi-Deux.
Pour analyser ces écarts le système propose un algorithme d'Analyse Factorielle des Correspondances, Méthode développée par J P Benzécri - (Oran 1932 - Villampuy 2019).
L'algorithme utilisé ici tente d'extraire les deux premiers facteurs. Leur représentation graphique sur des axes (dits axe factoriels) permet visualiser les éventuels liens entre les lignes et les colonnes.
Le visiteur peut se réferer à la publication de Philippe CIBOIS "L'Analyse Factorielle" (Collection Que sais-je des Presses Universitaires de France - PUF Juillet 1991)
Tableaux et graphiques
- Les tableaux
- Données brutes (Observations)
- Distribution théorique (neutralité des comportements)
- Les écarts bruts entre ces deux distributions
- Ces mêmes écarts pondérés (Khi-deux)
- Les graphiques
- Histogramme : Global et détails par colonne et par ligne
- Sectoriel : Global et détails par colonne et par ligne
- Les 2 premiers axes factoriels
Les exemples
- Les bacheliers : repris du livre de Philippe CIBOIS (collection "Que-sais-je" des Presses Universitaires de France - PUF - Paris 1991)
L'algorithme qui est utilisé pour l'extraction des facteurs s'inspire très largement de la méthode proposée par l'auteur.
L'intérêt de l'exemple est de montrer la visualisation des comportements relativement homogènes des groupes d'étudiants selon le type de bac.
- Les inscrits à l'université montre les difficultés d'interprétation de ce type d'analyse et de visualisation des résultats de caculs complexes.
Il est parfois judicieux de retirer du tableau de données une colonne ou une ligne pour éviter les biais causés par leur présence. L'académie de paris "pèse lour dans ce tableau".
Un tableau inscrits à l'université en 2022 a été utilisé sans l'académie de Paris. Sans doute aurait-il été préférable aussi de retirer celle de Créteil et Versailles
qui forment le principal pôle universitaire d'ile de France.
- Les autres cas illustrent des cas d'utilisation des sondages pour identifier les hébergements de vacances selon la catégorie socioprofessionnelles
ou le type d'activités culturelle selon la catégorie d'âge.
Vos tableaux de données
Vous pouvez utiliser votre propre tableau de données. Le fichier doit être au format CSV et ne doit comporter aucune ligne ou colonne total.
Mieux encore vous pouvez créer en direct votre tableau de données croisées. Utiliser pour cela l'outil sondage adapté à ces traitements.
Le sondage ne comporte que 2 questions à choix mutiples (qui correspondent aux lignes et colonnes du tableau).
- Une question à choix mutiples exclusifs pour créer les lignes
- Une question à choix multiple exclusifs ou pas pour créer les colonnes du tableau
- L'échantillon (nombre de réponses - observations) doit être supérieur ou égal à 100
- Les resultats du sondage sont regroupés dans un tableau qui sera soumis au même traitement que les exemples.
- Il n'y a pas de limite de nombre de sondages.
- Par contre les données ne sont pas sauvegardées et votre fichier sera effacé aussitôt que vous quitter votre session sur le site.
- Télécharger votre fichier ainsi généré si vous voulez le garder pour une utilisation ultérieure