Les données doivent-elles toujours être étiquetées ?

Colin de la Higuera; Jotsna Iyer

Contenus additionnels

Les données doivent-elles toujours être étiquetées ?

Non, pas toujours. Une grande partie des algorithmes d’apprentissage automatique sont supervisés ou non-supervisés.

Quand vous souhaitez classer une photo en tant que photo d’un chien, d’un chat ou d’un gorille, vous pouvez fournir à la machine des photos portant l’étiquette « chien », « chat » ou « gorille ». Lorsque vous souhaitez noter une copie, vous pouvez fournir à la machine une grande quantité de copies corrigées, avec leurs notes associées. Dans tous les cas, nous savions à quoi ressemblerait le résultat : un chien, un chat, un gorille, A+, A, A-, D…

Lorsque des données étiquetées sont fournies pendant l’entraînement, l’algorithme essaye de trouver une fonction ou une sorte de formule mathématique,qui permet de faire correspondre la saisie au résultat. La plupart du temps, cela signifie également que le programmateur ou la programmatrice essaye divers algorithmes afin de voir lequel propose la meilleure fonction d’association. Pour autant, tant que les données portent des étiquettes, celles-ci servent de « Superviseur » ou de guide qui permet de vérifier que la fonction choisie par l’algorithme fonctionne bel et bien¹. Si la fonction propose un résultat différent de celui du label, l’algorithme doit fournir un meilleur résultat.

L’étiquetage des données est une activité qui prend du temps, qui s’avère coûteuse et qui nécessite souvent l’emploi de travailleurs humains. Lorsque nous cherchons uniquement des modèles dans les données sans avoir une idée claire du modèle que nous allons trouver, nous ne connaissons même pas le résultat. Les données ne peuvent donc pas être étiquetées. C’est là que les algorithmes non supervisés entrent en jeu.

Au lieu d’essayer de faire correspondre saisie et résultat, ces algorithmes cherchent des régularités dans les données, qui permettront de regrouper les saisies en catégories¹. Les banques utilisent l’apprentissage automatique non supervisé pour détecter des activités frauduleuses dans les transactions par carte bancaire. Étant donné que l’on recense un nombre gigantesque de transactions à chaque minute, nous ne pouvons pas savoir comment détecter des modèles et étiqueter une activité comme étant une fraude, c’est pourquoi nous nous appuyons sur l’Apprentissage Automatique pour identifier automatiquement des modèles. Le fait de regrouper des ensembles d’étudiants en un nombre fixe de groupes est également un problème qui requiert souvent l’utilisation de l’apprentissage automatique non supervisé. Il en va de même en ce qui concerne l’identification d’opérations terroristes grâce à des activités cellulaires dans un réseau.

¹Kelleher, J.D, Tierney, B, Data Science, London, 2018.

Licence

Symbole de Licence Creative Commons Attribution 4.0 International

IA pour les enseignants : un manuel ouvert Droit d'auteur © 2024 par Colin de la Higuera et Jotsna Iyer est sous licence Licence Creative Commons Attribution 4.0 International, sauf indication contraire.

Les données doivent-elles toujours être étiquetées ?

Licence

Partagez ce livre