Additional Content
Ali morajo biti podatki vedno označeni?
Ali morajo biti podatki vedno označeni?
Ne, ne vedno. Velik del algoritmov strojnega učenja so algoritmi za nadzorovano učenje ali algoritmi za nenadzorovano učenje.
Če želite fotografijo razvrstiti kot fotografijo psa, mačke ali gorile, lahko stroj napolnite s fotografijami, označenimi kot pes, mačka ali gorila. Ko želite oceniti esej, lahko dodate veliko popravljenih esejev, označenih z njihovimi ocenami. V vsakem primeru smo vedeli, kakšen bo rezultat: pes, mačka, gorila, A+, A, A-, D …
Glede na označene podatke med usposabljanjem poskuša algoritem najti funkcijo ali matematični recept, če želite, da se ujema z rezultatom in vložkom. To pogosto pomeni tudi, da programer preizkuša različne algoritme, da bi ugotovil, kateri se najbolje ujema s funkcijo. Toda dokler imajo podatki oznake, te oznake delujejo kot “nadzornik” ali vodnik, ki preverja, ali funkcija, ki jo izbere algoritem, res deluje1. Če funkcija daje rezultat, ki se razlikuje od rezultata oznake, mora algoritem najti boljšega.
Toda označevanje podatkov je dolgotrajen in drag proces, ki pogosto vključuje najemanje ljudi. Poleg tega, če le iščemo vzorce v podatkih in nimamo jasne predstave o tem, kakšen vzorec bomo našli, nam rezultat niti ni znan. Tako podatkov ni mogoče označiti. Tu nastopijo nenadzorovani algoritmi.
Namesto da bi poskušali uskladiti vložek z rezultatom, ti algoritmi poskušajo najti pravilnosti v podatkih, ki bodo pomagale razvrstiti vložek v kategorije1. Banke uporabljajo nenadzorovano strojno učenje za odkrivanje goljufive aktivnosti pri transakcijah s kreditnimi karticami. Ker je vsako minuto ogromno transakcij in ne bomo vedeli, kako odkriti vzorce in označiti aktivnost kot goljufijo, se zanašamo na strojno učenje, da najde vzorec samodejno. Združevanje katere koli dane skupine učencev v določeno število skupin je prav tako problem, ki pogosto uporablja nenadzorovano učenje. Enako velja za iskanje teroristične aktivnosti glede na celično aktivnost v mreži.
1 Kelleher, J.D, Tierney, B, Data Science, London, 2018.