O GENERATIVNI UI

37 Orodja generativne UI

Fabrizio Falchi and Manuel Gentile

Velika priljubljenost, ki so jo v kratkem obdobju dosegli najnovejši modeli UI za obdelavo naravnega jezika (npr. ChatGPT, Bard in LLAMa2-chat), zasnovani na uporabi velikih jezikovnih modelov, je povzročila burne debate, ki so s stališča različnih vidikov še vedno odprte. Nedvomno nas fascinira vprašanje, kako lahko računalniški sistem, ki ga upravljajo relativno preproste matematične enačbe, ustvari “inteligentno” vedenje.

Vendar pa to poglavje ne bo poskušalo odgovoriti na vprašanja, kot so “Ali je za velike jezikovne modele značilno vedenje, ki ga lahko opredelimo kot inteligentno?“, “Kakšna je resnična narava človeške inteligence?“, ali “Kako opredelimo ustvarjalnost?” Ta vprašanja so nedvomno zanimiva, vendar bi iskanje odgovorov nanje zahtevalo veliko bolj obsežne in poglobljene raziskave.

Namesto tega bomo poskušali ponuditi pregledne in laikom razumljive razlage ter s tem omogočiti razumevanje mehanizmov, ki so v ozadju delovanja velikih jezikovnih modelov. Šele z večjo ozaveščenostjo o načinu delovanja teh mehanizmov je mogoče razumeti njihov potencial in tveganja ter spodbujati njihovo pravilno rabo, zlasti v izobraževanju.

Prva in zelo razširjena napačna predstava, ki jo je treba ovreči, je, da so takšni sistemi v bistvu velike baze podatkov, sestavljene iz parov vprašanj in odgovorov. To zmotno prepričanje izhaja iz praks, ki so se v preteklih letih uveljavile pri gradnji sistemov klepetalnih robotov (vabimo vas, da preberete poglavje na to temo). Vendar pa takšno prepričanje ne upošteva generativnega značaja velikih jezikovnih modelov (LLM).

Jezikovni modeli so statistični modeli, ki napovejo verjetnost pojava dela besedila (največkrat besede) kot funkcijo določenega konteksta, ki je običajno opredeljen kot niz besed pred napovedano besedo.

Modelom, zgrajenim s strogo statističnim pristopom (npr. Markove verige, imenovane tudi n-gramski modeli), so se sčasoma pridružili jezikovni modeli, zgrajeni iz nevronskih mrež1. Postajali so vse bolj razviti v smislu strukture in velikosti nevronskih mrež.

Veliki jezikovni modeli so takšno ime dobili zato, ker temeljijo na velikih nevronskih mrežah, ki se učijo na ogromnih količinah podatkov.

Začenjamo torej s trditvijo, da jezikovni modeli generirajo besedila in pri tem ne gre le za preprost priklic besedil iz vnaprej sestavljenih baz znanja.

Zaradi generativne in intuitivne narave jezikovnih modelov je težko predvideti, kako se bo sistem velikega jezikovnega modela odzval na uporabniške vnose. Ta značilnost odraža nezaupanje do takšnih sistemov v zvezi z njihovo potencialno zmožnostjo ustvarjanja napačnega ali netočnega besedila.

Ta značilnost je tako velik tehnološki dosežek v smislu zmožnosti stroja, da razume in proizvede besedilo, hkrati pa ena glavnih nevarnosti tovrstnih tehnologij.

Poglejmo podrobneje takšne sisteme.

Kot z vsako tehnološko revolucijo je tudi s tem prebojem povezanih več dejavnikov. Tukaj omenjamo nekatere, hkrati pa bralca usmerjamo k bolj poglobljenemu branju:

  • Velikost mreže: meri se s številom učjivih parametrov znotraj mreže. Veliki jezikovni modeli so globoke nevronske mreže, za katere je značilno osupljivo število vozlišč in plasti. Za lažjo predstavo: nekateri strokovnjaki na tem področju jezikovne modele označijo kot “velike”, če vsebujejo več kot 10 milijard parametrov. Model GPT3 ima 150 milijard parametrov, največja različica LLAMa v2 pa približno 70 milijard.
  • Arhitektura mreže: uspešnosti ne zagotavlja le velikost mreže, ampak tudi način, kako so vozlišča in različne plasti nevronske mreže medsebojno povezani. Tudi tukaj lahko na preprost način opišemo transformatorske mreže in mehanizme pozornosti kot glavne arhitekturne inovacije, ki pomagajo razumeti izboljšano učinkovitost teh mrež.
  • Količina učnih podatkov: razpoložljivost velike količine podatkov je nedvomno bistven element pri učenju takšnih modelov, kar je sicer znano že dolgo časa. Ključni dejavnik inovacije je v tehnikah učenja ter v procesu izbire in priprave, ki vodi od podatkov do učnega niza (samonadzorovano učenje).
  • Aktualna računalniška zmogljivost: povečana računalniška zmogljivost je seveda igrala odločilno vlogo pri razvoju mrež. Empirične izkušnje kažejo, da je prav faktor povečanja eden bistvenih parametrov za pojav omenjenih tehnologij.
  • Mehanizmi za uravnavanje predstavljajo zadnji korak v procesu izgradnje takih modelov. Govorimo predvsem o mehanizmih spodbujevalnega učenja, ki vključujejo človeške povratne informacije in razvrščanje. To prispeva k opredelitvi modela in omogoča generiranje odgovorov, ki so bolj usklajeni z namenom uporabnika. Drugi procesi uravnavanja pa omogočajo specializacijo in izboljšanje vedenja nevronskih mrež pri izvajanju specifičnih nalog.
  • Varnostni ukrepi: poleg modela globokega učenja obstajajo ad hoc tehnike, namenjene ublažitvi ranljivosti sistema pri nevarnih vnosih in preprečevanju neželenega vedenja pri varnih in nevarnih vnosih.

Ko se seznanimo z različnimi dejavniki velikih jezikovnih modelov, nam ostane le še raziskovanje potenciala takšnih sistemov tako, da jih preizkusimo v svojem izobraževalnem kontekstu. Zato vas spodbujamo, da preizkusite klepet s ChatGPT ali Bardom; naj vam pomagata generirati nove naloge za učence in jih prilagoditi specifiki vaše učilnice, ali ustvariti nove načrte učnih ur itd. Vse je odvisno od vaše ustvarjalnosti in od tega, kako komunicirate s takšnimi sistemi.

Opomba: več o opisanih dejavnikih si preberite s pomočjo seznama virov.


1 Bengio, Y., Ducharme, R., & Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.

2 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.

Licence

Icon for the Creative Commons Attribution 4.0 International License

UI za učitelje: interaktivni spletni priročnik Copyright © 2024 by Colin de la Higuera and Jotsna Iyer is licensed under a Creative Commons Attribution 4.0 International License, except where otherwise noted.

Share This Book