À propos des IA génératives

37 Les rouages de l’IA générative

Manuel Gentile et Fabrizio Falchi

L’incroyable popularité atteinte, en très peu de temps, par les plus récents systèmes de conversation à langage naturel (comme ChatGPT, Bard et LLAMa2-chat)qui utilisent les grands modèles de langages (LLM) a conduit à l’émergence de débats animés, encore aujourd’hui, sur plusieurs sujets. La question de savoir comment un système computationnel régi par des équations mathématiques relativement simples peut générer des comportements qui sont considérés, par la plupart des gens, comme « intelligents » reste évidemment fascinante.

Cependant, dans ce chapitre, nous ne chercherons pas à savoir si « les modèles LLM présentent des comportements qui peuvent être définis comme étant intelligents », « quelle est la véritable nature de l’intelligence humaine », « comment définir la créativité » ni à répondre à d’autres questions similaires qui présentent un certain intérêt et qui restent, aujourd’hui et peut-être pour longtemps, sans réponse. Ces questions nécessitent une réflexion bien plus approfondie.

Nous chercherons plutôt à fournir un aperçu de ce qui est accessible aux personnes non-expertes pour mieux comprendre les mécanismes sous-jacents du fonctionnement des grands modèles de langages.Ce n’est qu’en connaissant mieux ces mécanismes que nous pourrons comprendre leur potentiel et les risques qu’ils présentent et promouvoir leur utilisation correcte, notamment dans le domaine de l’enseignement.

Une première idée reçue, pourtant très répandue et qui mérite d’être dissipée, concerne le fait que ces systèmes sont de grandes bases de données de combinaisons questions-réponses. Cette idée, qui ne correspond pas à la réalité, provient de pratiques plus ou moins communes qui ont été établies avec le temps dans le cadre de la construction des systèmes de chatbot (nous vous invitons à lire le chapitre qui y est consacré). En même temps, cette idée ne rend pas justice au caractère génératif des LLM.

Les modèles de langage sont des modèles statistiques capables d’assigner une probabilité d’occurrence à une portion de texte (habituellement un mot) comme fonction d’un contexte donné, habituellement défini par un ensemble de mots qui prédisent le mot attendu.

Les modèles développés sur la base d’une approche purement statistique (par exemple, la Chaîne de Markov, également appelée modèle n-gramme) ont été progressivement complétés par des modèles de langage s’appuyant sur des réseaux de neurones1. La structure et la taille de ces réseaux a connu différentes évolutions.

Aujourd’hui, les grands modèles de langages (LLM) désignent précisément ce type de modèle de langage reposant sur des grands réseaux de neurones, formés sur la base de quantités colossales de données.

 

Par conséquent, notre étude se base sur le postulat selon lequel les modèles de langages génèrent des textes, au lieu de simplement aller les chercher dans une base de connaissances préexistante.

Cet aspect génératif, et leur nature essentiellement intuitive pour les personnes expertes, rendent imprévisibles les réponses des systèmes LLM à la saisie d’un utilisateur. Cette caractéristique constitue un des points de méfiance habituels à l’égard de ces systèmes, notamment en lien avec leur capacité à générer des textes faux ou inexacts.

Cette fonctionnalité représente un incroyable accomplissement en ce qui concerne la capacité des machines à comprendre et à générer des textes, mais elle incarne également un des principaux dangers qui accompagnent ces technologies.

Penchons-nous toutefois un peu plus sur ces systèmes.

Comme pour toute révolution technologique, les facteurs sur lesquels s’appuie cette découverte sont nombreux. Par souci de simplification, nous allons mentionner les principaux facteurs tout en présentant aux lecteurs des références qui pourront les guider dans le cadre d’une étude plus approfondie :

  • La taille du réseau : ce facteur se mesure grâce au nombre de paramètres d’entraînement du réseau. Les grands modèles de langage sont des réseaux neuronaux profonds, caractérisés par un nombre impressionnant de nœuds et de couches. Pour donner un ordre de grandeur, certains experts sur le terrain désignent les modèles de langage comme étant « grands » lorsque ceux-ci présentent plus de 10 milliards de paramètres. Pour donner une idée concrète, le modèle GPT3 présente 150 milliards de paramètres, tandis que la version la plus large de LLAMa v2 en présente environ 70 milliards.
  • L’architecture du réseau : la réussite n’est pas seulement garantie par la taille du réseau, mais aussi par la manière dont les nœuds et les différentes couches du réseau neuronal sont interconnectés. Encore une fois, par souci de simplification, nous pouvons identifier les transformers et les mécanismes de l’attention en tant que principales innovations architecturales qui aident à comprendre l’amélioration de l’efficacité de ces réseaux.
  • La quantité de données disponibles pour l’entraînement : la grande disponibilité des données est sans aucun doute un élément essentiel de l’entraînement de ces modèles mais, en réalité, cela a été établi depuis de nombreuses années, bien avant l’introduction de ces modèles. Le facteur d’innovation principal concerne ainsi les techniques d’entraînement et le processus de sélection et de préparation, des données jusqu’à l’ensemble d’entraînement, que l’on appelle l’apprentissage auto-supervisé.
  • La puissance informatique actuelle : de toute évidence, l’augmentation de la puissance informatique a joué un rôle décisif dans l’agrandissement de ces réseaux. L’expérience empirique semble montrer que le facteur d’échelle est précisément un des paramètres essentiels d’émergence de ces comportements.
  • Les mécanismes d’ajustement : les mécanismes d’ajustement constituent un autre élément, souvent ignoré, qui représente la dernière étape du processus de développement de ces modèles. Plus particulièrement, on appelle mécanismes de renforcement l’apprentissage sur la base d’un retour humain ainsi que le classement qui contribue à définir le modèle, dans le but de générer des réponses qui correspondent plus précisément à l’intention de l’utilisateur. A ces mécanismes, on peut ajouter l’ensemble des processus de fine-tuning qui permettent la spécialisation et l’amélioration du comportement de ces réseaux dans le cadre de l’exécution de tâches spécifiques.
  • Un pipeline de sécurité : en plus du modèle de deep learning,on trouve des techniques ponctuelles conçues pour atténuer les vulnérabilités du système sur la base de saisies présentant des risques et pour éviter tout comportement indésirable, sur la base de saisies sécurisées ou présentant des risques.

Ayant pris connaissance des différents facteurs qui caractérisent les LLM, il ne nous reste plus qu’à découvrir le potentiel de ces systèmes en les essayant dans un cadre pédagogique. Nous pouvons ainsi essayer de discuter avec ChatGPT ou Bard afin de nous aider à créer de nouveaux exercices et de les adapter aux besoins spécifiques de nos étudiants, de créer de nouveaux programmes de cours, avec les contenus associés, et bien plus encore. Tout dépend de votre créativité et de la manière dont vous apprenez à dialoguer avec ces systèmes.

A noter : chacun de ces facteurs mériterait d’être abordé plus en profondeur. Pour les personnes intéressées, nous proposons une liste de référence.


1 Bengio, Y., Ducharme, R., & Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.

2 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.

Licence

Symbole de Licence Creative Commons Attribution 4.0 International

IA pour les enseignants : un manuel ouvert Droit d'auteur © 2024 par Colin de la Higuera et Jotsna Iyer est sous licence Licence Creative Commons Attribution 4.0 International, sauf indication contraire.

Partagez ce livre