UPRAVLJANJE UČENJA
17 Govorica UI: Sistemi, ki temeljijo na podatkih – 2. del
Načrtovanje in izvedbo kakršnegakoli sistema, ki bo deloval na osnovi podatkov, lahko razdelimo na šest korakov. Velikokrat se je potrebno vrniti na prejšnji korak in nato spet naprej, včasih pa je treba tudi celoten postopek večkrat ponoviti, da bo sistem deloval pravilno.
Za učinkovito delovanje takšnih sistemov v učilnicah je dobro v vsak korak procesa vključiti multidisciplinarne ekipe: učitelje, strokovnjake s področja pedagogike in programerje1. Človeški faktor je tu potreben za prepoznavanje izobraževalnih potreb, načrtovanje procesa, oblikovanje in pripravo podatkov, izbiro algoritmov, kritično interpretacijo rezultatov in načrtovanje uporabe končne aplikacije2.
1) Razumevanje izobraževalnega konteksta
Prvi korak pri oblikovanju izobraževalnih orodij, podprtih z delovanjem UI (AIED orodja) je razumevanje potreb. Ko enkrat zastavimo cilje, sledi ugotavljanje, kako bi jih bilo mogoče doseči: katere dejavnike naj upoštevamo in katerih ne? Rešitve na osnovi kakršnegakoli sistema podatkov bolje delujejo s podatki, ki jih je mogoče natančno izračunati in standardizirati3. Zato morajo o vsaki odločitvi razpravljati: učitelji, ki bodo orodje uporabljali, strokovnjaki (pedagogi), ki zagotovijo, da so vse odločitve utemeljene na uveljavljenih, zanesljivih teorijah, ter programerji, ki razumejo delovanje algoritmov.
Pogosto se je treba pri tem (večkrat) vrniti iz drugega koraka nazaj na prvega, saj so možne rešitve odvisne tudi od tega, kateri podatki so na voljo2. Poleg tega za oblikovanje AIED orodij veljajo nekateri zakoni, ki določajo omejitve glede uporabe podatkov in vrst algoritmov, ki se lahko uporabljajo.
2) Razumevanje podatkov
Po določitvi ciljev in dejavnikov vplivanja se osredotočimo na to, kateri podatki so potrebni, kako bodo pridobljeni in označeni, kako bo poskrbljeno za zasebnost in kako se bo merila kakovost podatkov3. Za učinkovito delovanje takšnih aplikacij strojnega učenja morajo biti sklopi podatkov dovolj obsežni, raznoliki in dobro označeni.
Strojno učenje potrebuje podatke, iz katerih se model uči, jih obdeluje in na podlagi katerih generira napovedi. Posamezne funkcije strojnega učenja, kot je npr. prepoznava obrazov in predmetov, že imajo na voljo veliko zasebnih in javnih podatkovnih zbirk, iz katerih se učijo.
Če še niso na voljo v uporabni obliki, je sklope podatkov morda treba dodati ali na novo označiti, da ustrezajo potrebam sistema. V skrajnem primeru je potrebno na novo ustvariti in označiti sveže sklope podatkov. Za vir podatkov se lahko uporabijo tudi digitalne sledi, ki jih učenec ustvari med uporabo aplikacije.
V vsakem primeru je treba podatke in značilnosti, ki so pomembne za specifične okoliščine, skrbno določiti2. Nepomembne ali odvečne značilnosti lahko algoritem usmerijio v iskanje napačnih vzorcev in vplivajo na delovanje sistema2. Stroj zna poiskati vzorce samo v podatkih, ki so mu dani, zato je z izbiro sklopa podatkov posredno opredeljen tudi problem (naloga)4. Če je na voljo veliko podatkov, je treba s pomočjo statističnih tehnik izbrati podmnožico, podatke pa preveriti, da se preprečijo napake in pristranskost.
Primer neustreznih podatkov za učenje je zgodba iz zgodnjega obdobja razvoja računalniškega vida. Računalniški model so učili razlikovanja med podobami ruskih in ameriških tankov. Kasneje je bilo ugotovljeno, da je bila sicer zelo visoka stopnja natančnosti modela v resnici posledica dejstva, da so bili ruski tanki fotografirani na oblačen dan, ameriški pa na sončen dan4.
Prav zato je treba vselej preveriti kakovost izbranega nabora podatkov, pri čemer je treba upoštevati, zakaj je bil ustvarjen, kaj vsebuje, ter kakšni so bili postopki zbiranja, čiščenja in označevanja, distribucije in vzdrževanja podatkov4. Dve ključni vprašanji pri tem sta: ali je sklop podatkov primeren za predvidene namene in, ali vsebuje skrite nevarnosti, zaradi katerih lahko model postane pristranski ali diskriminatoren3?
3) Priprava podatkov
Priprava podatkov vključuje ustvarjanje podatkovnih sklopov z združevanjem podatkov iz različnih virov, prilagoditve zaradi nedoslednosti (npr., rezultati testov izraženi z lestvico od 1 do 10, ali z odstotki) in identifikacijo manjkajočih ali ekstremnih vrednosti. Temu lahko sledi avtomatično testiranje, s čimer se preveri kakovost podatkovnega sklopa: preverjanje morebitnih kršitev zasebnosti in nepredvidenih korelacij ali stereotipov2. Sklop podatkov se lahko v tej fazi razdeli na učni in testni sklop. Prvi je namenjen učenju modela, druga pa preverjanju njegove učinkovitosti. Testiranje modela na sklopu podatkov za učenje bi bilo nekaj podobnega, kot da bi dan pred preizkusom znanja učencem za domačo nalogo razdelili dotični test: uspešnost pri testu v tem primeru zagotovo ne bi odražala njihovega razumevanja2.
4) Modeliranje
V tem koraku se uporabijo algoritmi, ki v podatkih prepoznajo vzorce in generirajo modele. Običajno se preizkušajo različni algoritmi, da se ugotovi, kateri deluje najbolje. Izdelani modeli se lahko nato uporabijo za napovedovanje (predvidevanje) na podlagi novih podatkov.
V večini primerov začetni modeli odkrijejo težave v podatkih, kar narekuje vrnitev na drugi in tretji korak2. Če obstaja močna korelacija med značilnostmi podatkov in izhodno vrednostjo, je zelo verjetno, da bo algoritem strojnega učenja generiral zanesljive napovedi.
Takšni algoritmi za obdelavo podatkov uporabljajo napredne statistične in računalniške tehnike. Programerji morajo prilagajati nastavitve in preizkušati različne algoritme, da dobijo najboljše rezultate. Vzemimo za primer aplikacijo, ki zaznava goljufanje. Lažno pozitiven rezultat predstavlja situacija, ko je označen učenec, ki ni goljufal. Lažno negativen rezultat je, če učenec, ki goljufa, ni označen. Ustvarjalci sistema lahko nastavijo model tako, da čim bolj zmanjšajo bodisi lažno pozitivne rezultate, kar pomeni, da bi sistem lahko spregledal nekatere elemente goljufanja, bodisi lažno negativne rezultate, kar pomeni, da bi bili kot goljufanje označeni tudi neeksplicitni primeri5. Nastavitev je torej odvisna od tega, kaj želimo, da sistem naredi.
5) Vrednotenje
V fazi modeliranja se lahko za različne modele nastavi stopnja natančnosti predvidevanja na sklopu učnih podatkov. Različice modelov se nato preizkusijo na testnem sklopu podatkov in določen model se izbere za uporabo. Ta model se ovrednoti tudi glede na to, kako izpolnjuje izobraževalne potrebe: ali so cilji, določeni v prvem koraku, doseženi? Ali so se pojavile nepredvidene težave? Je model dovolj kakovosten? Ali bi bilo mogoče kaj izboljšati ali narediti drugače? Ali je potrebno preoblikovanje modela? Glavni cilj tega koraka je sprejeti odločitev, ali se sistem lahko uporablja v šolah. Če je odgovor ne, je potrebno celoten postopek začeti znova2.
6) Uporaba
Zadnji korak v procesu je ugotoviti, kako uvesti in pričeti z uporabo aplikacije v šolskem sistemu tako, da bo dosežena čim večja koristnost, tako z vidika tehnične infrastrukture kot tudi z vidika poučevanja. Čeprav je ta korak tukaj predstavljen kot končni korak, je celoten proces v resnici iterativen. Po uvedbi je treba model redno pregledovati, da se preveri, ali je še vedno ustrezen glede na kontekst. Izobraževalne potrebe, postopki ali načini zajemanja podatkov se lahko spremenijo, kar vpliva na rezultate sistema. Zato so potrebne redne revizije in morebitne posodobitve. Nenehno je treba spremljati sistem in njegove vplive na učenje, poučevanje in ocenjevanje6.
Etične smernice za uporabo UI in podatkov v izobraževanju poudarjajo, da mora biti šola v stiku s ponudnikom storitev UI skozi celoten življenjski cikel izbranega sistema UI, tudi pred samo uporabo. Odgovorni morajo zahtevati popolno tehnično dokumentacijo in zagotoviti obrazložitve v zvezi z morebitnimi nejasnostmi. Nujno potreben je dogovor o podpori in vzdrževanju opreme, odgovorni pa naj se prepričajo, da je ponudnik upošteval vse zakonske obveznosti6.
OPOMBA: Opisani koraki in ilustracije so povzeti po modelu CRISP-DM (Slika 3 v: Chapman, Clinton, Kerber idr. 1999)2.
1 Du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256–285, 2018.
2 Kelleher, J.D, Tierney, B, Data Science, London, 2018.
3 Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.
4 Barocas, S., Hardt, M., Narayanan, A., Fairness and machine learning Limitations and Opportunities, 2022.
5 Schneier, B., Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, W. W. Norton & Company, 2015.
6 Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators, European Commission, October 2022.