Gérer l’éducation
16 Parlons IA : Systèmes basés sur les données – Partie 1
Décisions en classe
En tant qu’enseignant, vous avez accès à de nombreux types de données. Soit des données tangibles comme les feuilles de présence et de performances, soit des données intangibles comme les expressions corporelles des élèves. Pensez à certaines des décisions que vous prenez dans votre vie professionnelle : Quelles sont les données qui vous aident à prendre ces décisions ? Il existe des applications technologiques qui peuvent vous aider à visualiser ou à traiter les données. Les systèmes d’intelligence artificielle utilisent les données pour personnaliser l’apprentissage, faire des prédictions et prendre des décisions qui pourraient vous aider à enseigner et à gérer votre classe : Avez-vous des besoins auxquels la technologie peut répondre ? Si oui, quelles seront les données dont un tel système pourrait avoir besoin pour mener à bien sa tâche ?
Les systèmes éducatifs ont toujours généré des données – données personnelles des étudiants, dossiers académiques, données de présence et plus encore. Avec la numérisation et les applis AIED, davantage de données sont enregistrées et stockées : clics de souris, pages consultées, horodatages et frappes au clavier1. La pensée centrée sur les données devenant la norme dans la société, il est naturel de se demander comment croquer toutes ces données pour faire quelque chose de pertinent : pourrions-nous donner des retours plus personnalisés à l’apprenant ? Pourrions-nous concevoir de meilleurs outils de visualisation et de notification pour l’enseignant ?2
Quelle que soit la technologie utilisée, elle doit répondre à un besoin réel dans la salle de classe. Une fois le besoin identifié, nous pouvons examiner les données disponibles et nous demander ce qui est pertinent pour le résultat souhaité. Il s’agit de découvrir les facteurs qui permettent aux éducateurs de prendre des décisions nuancées. Ces facteurs peuvent-ils être saisis à l’aide des données disponibles ? Les données et les systèmes basés sur les données sont-ils le meilleur moyen de répondre au besoin ? Quelles pourraient être les conséquences involontaires de l’utilisation des données de cette façon ?3
L’apprentissage automatique nous permet de renvoyer nombre de ces questions aux données elles-mêmes4. Les applications du ML sont entraînées sur des données. Elles fonctionnent en exploitant les données. Elles trouvent des tendances et font des généralisations et les stockent sous forme de modèles – des données qui peuvent être utilisées pour répondre à des demandes à venir4. Leurs décisions et leurs prédictions, et la façon dont elles influencent l’apprentissage des élèves, sont également des données. Ainsi, savoir comment les programmeurs, la machine et l’utilisateur traitent les données est une partie importante de la compréhension du fonctionnement de l’intelligence artificielle.
A propos des données
Les données sont généralement liées à une entité du monde réel – une personne, un objet ou un événement. Chaque entité peut être décrite par un certain nombre d’attributs (caractéristiques ou variables)5. Par exemple, le nom, l’âge et la classe sont quelques attributs d’un étudiant. L’ensemble de ces attributs constitue les données dont nous disposons sur l’étudiant, qui, bien qu’elles ne soient en aucun cas proches de l’entité réelle, nous renseignent sur lui. Les données collectées, utilisées et traitées dans le système éducatif sont appelées données éducatives1.
Un jeu de données (dataset) peut être vu comme une collection d’entités organisées en lignes et en colonnes. La feuille de présence d’une classe est un ensemble de données. Chaque ligne est le « la fiche » d’un étudiant. Les colonnes peuvent être leur présence ou leur absence pendant un jour ou une session particulière. Ainsi, chaque colonne est un attribut.
Les données sont créées en choisissant des attributs et en les mesurant : chaque donnée est le résultat de décisions et de choix humains. Ainsi, la création de données est un processus subjectif, partiel et désordonné, sujet à des difficultés techniques4,5. De plus, ce que l’on choisit de mesurer et ce que l’on ne mesure pas peut avoir une grande influence sur les résultats attendus.
Les traces sont des enregistrements de l’activité des élèves tels que des clics de souris, des données sur les pages ouvertes, le moment des interactions ou des appuis sur clavier dans un système numérique1. Les métadonnées—c’est-à-dire des données qui décrivent d’autres données5. Les données dérivées sont des données calculées ou déduites d’autres données : les notes individuelles de chaque élève sont des données. La moyenne de la classe est une donnée dérivée. Souvent, les données dérivées sont plus utiles pour obtenir des perspectives utiles, trouver des modèles et faire des prédictions. Les applications d’apprentissage automatique peuvent créer des données dérivées et les lier à des traces de données et métadonnées pour créer des modèles d’apprentissage détaillés, qui aident à personnaliser l’apprentissage1.
Pour que toute application basée sur des données soit une réussite, les attributs doivent être soigneusement choisis et correctement mesurés. Les modèles qui y sont découverts doivent être vérifiés pour voir s’ils ont du sens dans le contexte éducatif. Lorsqu’ils sont conçus et maintenus correctement, les systèmes basés sur les données peuvent être très précieux.
Ce chapitre vise à présenter quelques éléments fondamentaux des données et de la technologie basée sur les données, mais la maîtrise des données est une compétence très importante à acquérir et mérite une formation dédiée et un soutien et des mises à jour continus1.
La réglementation que vous devez connaître
En raison de la baisse radicale des coûts de stockage des données, davantage de données et de métadonnées sont sauvegardées et conservées plus longtemps6. Cela peut entraîner des atteintes à la vie privée et des infractions aux droits. Des lois comme le Règlement général sur la protection des données (RGPD) découragent de telles pratiques et donnent aux citoyens de l’UE plus de contrôle sur leurs données personnelles. Elles donnent des règlements de protection des données juridiquement exécutoires dans tous les États membres de l’UE.
Selon le RGPD, les données personnelles sont toute information relative à une personne identifiée ou identifiable (sujet des données). Les écoles, en plus de s’engager auprès des entreprises qui traitent leurs données, stockent d’énormes quantités d’informations personnelles sur les étudiants, les parents, le personnel, la direction et les fournisseurs. En tant que responsables du traitement des données, elles sont tenues de stocker les données qu’elles traitent de manière confidentielle et sécurisée et de mettre en place des procédures pour la protection et l’utilisation appropriée de toutes les données personnelles1.
Les droits établis par le RGPD comprennent :
- Le Droit d’accès qui les oblige,les citoyens, à savoir(facilement) quelles données sont collectées sur eux
- Le Droit d’être informé de l’utilisation faite de leurs données
- Le Droit à l’effacement qui permet à un citoyen dont les données ont été collectées par une plateforme de demander que ces données soient retirées du jeu de données construit par la plateforme (et qui peut être vendu à d’autres personnes)
- Le Droit à l’explication où une explication doit être fournie chaque fois qu’ils ont besoin d’une clarification sur les processus de décision automatisés qui les concernent.
Toutefois, le RGPD permet la collecte de certaines données au titre de “l’intérêt légitime”7 et l’utilisation de données dérivées, agrégées ou anonymisées indéfiniment et sans consentement5. La nouvelle législation sur les services numériques (Digital Services Act) restreint l’utilisation des données personnelles dans le cadre de la publicité ciblée7. En outre, le bouclier de protection de la vie privée UE-USA renforce les droits de protection des données des citoyens de l’UE dans le contexte où leurs données ont été déplacées en dehors de l’UE5.
Il est possible de se référer à ce RGPD pour les nuls pour l’analyse faite par des experts indépendants de l’Union des libertés civiles pour l’Europe (Liberties), une ONG qui protège les droits de l’homme de chacun dans l’Union européenne.
1 Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators, European Commission, Octobre 2022.
2 du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256–285, 2018.
3 Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.
4 Barocas, S., Hardt, M., Narayanan, A., Fairness and machine learning Limitations and Opportunities, 2022.
5 Kelleher, J.D, Tierney, B, Data Science, MIT Press, London, 2018.
6 Schneier, B., Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, W. W. Norton & Company, 2015.
7 Kant, T., Identity, Advertising, and Algorithmic Targeting: Or How (Not) to Target Your “Ideal User.”, MIT Case Studies in Social and Ethical Responsibilities of Computing, 2021.