Govorica UI: Sistemi, ki temeljijo na podatkih – 2. del

Colin de la Higuera; Jotsna Iyer

UPRAVLJANJE UČENJA

17 Govorica UI: Sistemi, ki temeljijo na podatkih – 2. del

Načrtovanje in izvedbo kakršnegakoli sistema, ki bo deloval na osnovi podatkov, lahko razdelimo na šest korakov. Velikokrat se je potrebno vrniti na prejšnji korak in nato spet naprej, včasih pa je treba tudi celoten postopek večkrat ponoviti, da bo sistem deloval pravilno.

Za učinkovito delovanje takšnih sistemov v učilnicah je dobro v vsak korak procesa vključiti multidisciplinarne ekipe: učitelje, strokovnjake s področja pedagogike in programerje¹. Človeški faktor je tu potreben za prepoznavanje izobraževalnih potreb, načrtovanje procesa, oblikovanje in pripravo podatkov, izbiro algoritmov, kritično interpretacijo rezultatov in načrtovanje uporabe končne aplikacije².

1) Razumevanje izobraževalnega konteksta

Prvi korak pri oblikovanju izobraževalnih orodij, podprtih z delovanjem UI (AIED orodja) je razumevanje potreb. Ko enkrat zastavimo cilje, sledi ugotavljanje, kako bi jih bilo mogoče doseči: katere dejavnike naj upoštevamo in katerih ne? Rešitve na osnovi kakršnegakoli sistema podatkov bolje delujejo s podatki, ki jih je mogoče natančno izračunati in standardizirati³. Zato morajo o vsaki odločitvi razpravljati: učitelji, ki bodo orodje uporabljali, strokovnjaki (pedagogi), ki zagotovijo, da so vse odločitve utemeljene na uveljavljenih, zanesljivih teorijah, ter programerji, ki razumejo delovanje algoritmov.

Pogosto se je treba pri tem (večkrat) vrniti iz drugega koraka nazaj na prvega, saj so možne rešitve odvisne tudi od tega, kateri podatki so na voljo². Poleg tega za oblikovanje AIED orodij veljajo nekateri zakoni, ki določajo omejitve glede uporabe podatkov in vrst algoritmov, ki se lahko uporabljajo.

2) Razumevanje podatkov

Po določitvi ciljev in dejavnikov vplivanja se osredotočimo na to, kateri podatki so potrebni, kako bodo pridobljeni in označeni, kako bo poskrbljeno za zasebnost in kako se bo merila kakovost podatkov³. Za učinkovito delovanje takšnih aplikacij strojnega učenja morajo biti sklopi podatkov dovolj obsežni, raznoliki in dobro označeni.

Prilagojeno iz “File:MnistExamples.png” by Josef Steppan je licenciran pod CC BY-SA 4.0. Če si želite ogledati kopijo te licence, obiščite https://creativecommons.org/licenses/by-sa/4.0/?ref=openverse

Strojno učenje potrebuje podatke, iz katerih se model uči, jih obdeluje in na podlagi katerih generira napovedi. Posamezne funkcije strojnega učenja, kot je npr. prepoznava obrazov in predmetov, že imajo na voljo veliko zasebnih in javnih podatkovnih zbirk, iz katerih se učijo.

Če še niso na voljo v uporabni obliki, je sklope podatkov morda treba dodati ali na novo označiti, da ustrezajo potrebam sistema. V skrajnem primeru je potrebno na novo ustvariti in označiti sveže sklope podatkov. Za vir podatkov se lahko uporabijo tudi digitalne sledi, ki jih učenec ustvari med uporabo aplikacije.

V vsakem primeru je treba podatke in značilnosti, ki so pomembne za specifične okoliščine, skrbno določiti². Nepomembne ali odvečne značilnosti lahko algoritem usmerijio v iskanje napačnih vzorcev in vplivajo na delovanje sistema². Stroj zna poiskati vzorce samo v podatkih, ki so mu dani, zato je z izbiro sklopa podatkov posredno opredeljen tudi problem (naloga)⁴. Če je na voljo veliko podatkov, je treba s pomočjo statističnih tehnik izbrati podmnožico, podatke pa preveriti, da se preprečijo napake in pristranskost.

Primer neustreznih podatkov za učenje je zgodba iz zgodnjega obdobja razvoja računalniškega vida. Računalniški model so učili razlikovanja med podobami ruskih in ameriških tankov. Kasneje je bilo ugotovljeno, da je bila sicer zelo visoka stopnja natančnosti modela v resnici posledica dejstva, da so bili ruski tanki fotografirani na oblačen dan, ameriški pa na sončen dan⁴.

Prav zato je treba vselej preveriti kakovost izbranega nabora podatkov, pri čemer je treba upoštevati, zakaj je bil ustvarjen, kaj vsebuje, ter kakšni so bili postopki zbiranja, čiščenja in označevanja, distribucije in vzdrževanja podatkov⁴. Dve ključni vprašanji pri tem sta: ali je sklop podatkov primeren za predvidene namene in, ali vsebuje skrite nevarnosti, zaradi katerih lahko model postane pristranski ali diskriminatoren³?

3) Priprava podatkov

Priprava podatkov vključuje ustvarjanje podatkovnih sklopov z združevanjem podatkov iz različnih virov, prilagoditve zaradi nedoslednosti (npr., rezultati testov izraženi z lestvico od 1 do 10, ali z odstotki) in identifikacijo manjkajočih ali ekstremnih vrednosti. Temu lahko sledi avtomatično testiranje, s čimer se preveri kakovost podatkovnega sklopa: preverjanje morebitnih kršitev zasebnosti in nepredvidenih korelacij ali stereotipov². Sklop podatkov se lahko v tej fazi razdeli na učni in testni sklop. Prvi je namenjen učenju modela, druga pa preverjanju njegove učinkovitosti. Testiranje modela na sklopu podatkov za učenje bi bilo nekaj podobnega, kot da bi dan pred preizkusom znanja učencem za domačo nalogo razdelili dotični test: uspešnost pri testu v tem primeru zagotovo ne bi odražala njihovega razumevanja².

4) Modeliranje

V tem koraku se uporabijo algoritmi, ki v podatkih prepoznajo vzorce in generirajo modele. Običajno se preizkušajo različni algoritmi, da se ugotovi, kateri deluje najbolje. Izdelani modeli se lahko nato uporabijo za napovedovanje (predvidevanje) na podlagi novih podatkov.

V večini primerov začetni modeli odkrijejo težave v podatkih, kar narekuje vrnitev na drugi in tretji korak². Če obstaja močna korelacija med značilnostmi podatkov in izhodno vrednostjo, je zelo verjetno, da bo algoritem strojnega učenja generiral zanesljive napovedi.

Takšni algoritmi za obdelavo podatkov uporabljajo napredne statistične in računalniške tehnike. Programerji morajo prilagajati nastavitve in preizkušati različne algoritme, da dobijo najboljše rezultate. Vzemimo za primer aplikacijo, ki zaznava goljufanje. Lažno pozitiven rezultat predstavlja situacija, ko je označen učenec, ki ni goljufal. Lažno negativen rezultat je, če učenec, ki goljufa, ni označen. Ustvarjalci sistema lahko nastavijo model tako, da čim bolj zmanjšajo bodisi lažno pozitivne rezultate, kar pomeni, da bi sistem lahko spregledal nekatere elemente goljufanja, bodisi lažno negativne rezultate, kar pomeni, da bi bili kot goljufanje označeni tudi neeksplicitni primeri⁵. Nastavitev je torej odvisna od tega, kaj želimo, da sistem naredi.

5) Vrednotenje

V fazi modeliranja se lahko za različne modele nastavi stopnja natančnosti predvidevanja na sklopu učnih podatkov. Različice modelov se nato preizkusijo na testnem sklopu podatkov in določen model se izbere za uporabo. Ta model se ovrednoti tudi glede na to, kako izpolnjuje izobraževalne potrebe: ali so cilji, določeni v prvem koraku, doseženi? Ali so se pojavile nepredvidene težave? Je model dovolj kakovosten? Ali bi bilo mogoče kaj izboljšati ali narediti drugače? Ali je potrebno preoblikovanje modela? Glavni cilj tega koraka je sprejeti odločitev, ali se sistem lahko uporablja v šolah. Če je odgovor ne, je potrebno celoten postopek začeti znova².

6) Uporaba

Zadnji korak v procesu je ugotoviti, kako uvesti in pričeti z uporabo aplikacije v šolskem sistemu tako, da bo dosežena čim večja koristnost, tako z vidika tehnične infrastrukture kot tudi z vidika poučevanja. Čeprav je ta korak tukaj predstavljen kot končni korak, je celoten proces v resnici iterativen. Po uvedbi je treba model redno pregledovati, da se preveri, ali je še vedno ustrezen glede na kontekst. Izobraževalne potrebe, postopki ali načini zajemanja podatkov se lahko spremenijo, kar vpliva na rezultate sistema. Zato so potrebne redne revizije in morebitne posodobitve. Nenehno je treba spremljati sistem in njegove vplive na učenje, poučevanje in ocenjevanje⁶.
Etične smernice za uporabo UI in podatkov v izobraževanju poudarjajo, da mora biti šola v stiku s ponudnikom storitev UI skozi celoten življenjski cikel izbranega sistema UI, tudi pred samo uporabo. Odgovorni morajo zahtevati popolno tehnično dokumentacijo in zagotoviti obrazložitve v zvezi z morebitnimi nejasnostmi. Nujno potreben je dogovor o podpori in vzdrževanju opreme, odgovorni pa naj se prepričajo, da je ponudnik upošteval vse zakonske obveznosti⁶.

OPOMBA: Opisani koraki in ilustracije so povzeti po modelu CRISP-DM (Slika 3 v: Chapman, Clinton, Kerber idr. 1999)^2.

¹Du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256–285, 2018.

² Kelleher, J.D, Tierney, B, Data Science, London, 2018.

³Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.

⁴Barocas, S., Hardt, M., Narayanan, A., Fairness and machine learning Limitations and Opportunities, 2022.

⁵Schneier, B., Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, W. W. Norton & Company, 2015.

⁶Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators, European Commission, October 2022.

Licence

Icon for the Creative Commons Attribution 4.0 International License

UI za učitelje: interaktivni spletni priročnik Copyright © 2024 by Colin de la Higuera and Jotsna Iyer is licensed under a Creative Commons Attribution 4.0 International License, except where otherwise noted.