Résumé de la session

Introduction aux mégadonnées en sciences sociales

Laurence-Olivier M. Foisy

Université de Montréal

Introduction aux mégadonnées en sciences sociales

Structure du cours

Le parcours du semestre

  1. Introduction aux mégadonnées : Concepts fondamentaux des big data
  2. Introduction à R : Programmation et analyse de données
  3. Git, GitHub et Quarto : Contrôle de version et documents reproductibles
  4. Sondages : Collecte et analyse de données d’enquêtes
  5. Mesures latentes : Variables non observables et analyses factorielles
  6. Analyse textuelle : Traitement et analyse de textes
  7. Web scraping : Extraction automatisée de données web
  8. Grands modèles linguistiques : Utilisation de l’IA pour analyser des données
  9. Analyse d’images : Traitement et interprétation d’images pour la recherche

Concepts fondamentaux

Qu’est-ce que des mégadonnées ?

Les “V” des mégadonnées

  • Volume : Quantité massive de données
  • Vélocité : Rapidité de génération et traitement
  • Variété : Diversité des formats et sources

Les mégadonnées en sciences sociales

  • Avant : Données créées spécifiquement pour répondre à une question de recherche
  • Maintenant : Utilisation de données existantes pour répondre à des questions de recherche

Note

L’un n’est pas mieux que l’autre. Ils répondent à des besoins différents.

Principe fondamental : la reconversion

Notre travail consiste à transformer des données collectées pour d’autres fins en matériel de recherche pertinent pour les sciences sociales.

Outils et méthodes

R et RStudio

  • Essayez Positron
  • VSCode
  • VIM
  • Cursor

Git et GitHub

  • Système de contrôle de version
  • Suivi des modifications du code
  • Historique complet du projet
  • Branches pour développer en parallèle

Quarto pour documents reproductibles

  • Documents combinant texte, code, et résultats
  • Format Markdown simplifié pour la rédaction
  • Intégration de code R
  • Génération de documents variés (HTML, PDF, Word…)
  • Facilite la reproductibilité de la recherche
# Titre
## Sous-titre

Texte avec **emphase** et *italique*.
library(ggplot2)

# Code R intégré
ggplot(data, aes(x, y)) + 
  geom_point()

Méthodes d’analyse

Sondages et analyse d’enquêtes

  • Conception de questionnaires
  • Échantillonnage et représentativité
  • Pondération des données
  • Nettoyage et préparation
  • Analyses statistiques descriptives et inférentielles
  • Visualisation des résultats

Mesures latentes

  • Variables non directement observables (attitudes, traits, opinions)
  • Échelles multiples pour mesurer des concepts complexes
  • Analyse factorielle pour identifier des structures sous-jacentes
  • Création de variables composites
  • Évaluation de la fiabilité et validité des mesures

Analyse textuelle

  • Prétraitement du texte (tokenisation, stemming…)
  • Analyse de sentiments
  • Modélisation de sujets (topic modeling)
  • Classification de textes

Web scraping

  • Extraction automatisée de données du web
  • APIs pour accéder aux données structurées
  • HTML parsing pour extraire des informations de sites web
  • Considérations éthiques et légales
  • Automatisation de la collecte
  • Gestion et organisation des données extraites

Grands modèles linguistiques (LLM)

  • IA entraînée sur d’énormes volumes de texte
  • Capacités de génération et compréhension du texte
  • Applications en sciences sociales:
    • Classification de textes
    • Analyse de sentiment
    • Codage qualitatif assisté
  • Enjeux éthiques:
    • Biais algorithmiques
    • Confidentialité des données
    • Fiabilité des résultats
    • Besoin de validation humaine

Analyse d’images

  • Traitement d’images à grande échelle
  • Reconnaissance d’objets et classification
  • Analyse de représentations médiatiques
  • Computer vision et réseaux de neurones
  • Applications en sciences sociales:
    • Analyse de couverture médiatique
    • Étude des représentations sociales
    • Mesure de la diversité et de l’inclusion

Compétences acquises

Compétences techniques

  • Programmation en R
  • Utilisation de Git/GitHub
  • Création de documents reproductibles
  • Manipulation et visualisation de données
  • Extraction et analyse de données diverses

Compétences analytiques

  • Conception de recherche quantitative
  • Interprétation des résultats
  • Évaluation de la qualité des données
  • Application de méthodes adaptées aux questions de recherche

L’avenir des mégadonnées en sciences sociales

  • Démocratisation des outils d’analyse
  • Intégration croissante de l’IA dans la recherche
  • Recherche plus collaborative et interdisciplinaire
  • Nouvelles sources de données (IoT, réalité virtuelle, etc.)

Conclusion

Les mégadonnées comme outil complémentaire

Les mégadonnées ne remplacent pas les méthodes traditionnelles, mais offrent:

  • De nouvelles sources d’information
  • Des méthodes complémentaires aux approches existantes
  • La possibilité d’étudier des phénomènes à grande échelle
  • Des perspectives inédites sur les phénomènes sociaux

Merci