I dati devono sempre essere etichettati?

Colin de la Higuera; Jotsna Iyer

Additional Content

I dati devono sempre essere etichettati?

No, non sempre. Una buona parte degli algoritmi di apprendimento automatico sono o algoritmi di apprendimento supervisionato o algoritmi di apprendimento non supervisionato.

Quando si vuole classificare una foto come quella di un cane, di un gatto o di un gorilla, si possono inserire nella macchina delle foto etichettate come quelle di un cane, di un gatto o di un gorilla. Quando si vuole valutare un tema, si potrebbero inserire molti temi corretti, etichettati con le rispettive valutazioni. In ciascun caso, sapremmo quale sarebbe l’output: cane, gatto, gorilla, A+, A, A-, D…

Inseriti i dati etichettati durante l’addestramento, l’algoritmo cerca di trovare una funzione o un’equazione matematica se preferite, che combini output e input. Ciò spesso significa anche che il programmatore sperimenta diversi algoritmi per vedere quale si combina al meglio con una determinata funzione. Ma fintanto che i dati hanno delle etichette, esse funzionano come un “supervisore” o una guida che verifica che la funzione selezionata dall’algoritmo funzioni effettivamente1. Se la funzione produce un output diverso da quello dell’etichetta, l’algoritmo ne deve trovare una migliore.

Etichettare i dati però è un processo che richiede tempo e denaro e spesso comporta anche l’assunzione di operatori umani. Inoltre, se stiamo solo cercando schemi nei dati e non abbiamo un’idea chiara di quale schema troveremo, nemmeno l’output ci è noto. Pertanto, i dati non possono essere etichettati. È a questo punto che interviene un algoritmo di apprendimento non supervisionato.

Invece di cercare di combinare input e output, questi algoritmi cercano di individuare regolarità nei dati che aiuteranno a raggruppare gli input in categorie¹. Le banche ricorrono all’apprendimento automatico non supervisionato per individuare attività fraudolente nelle transazioni con le carte di credito. Dal momento che avvengono moltissime transazioni ogni minuto e non sappiamo come individuare gli schemi ed etichettare un’attività come fraudolenta, facciamo affidamento sull’apprendimento automatico per individuare in automatico lo schema. Raggruppare un determinato gruppo di studenti in un numero prefissato di gruppi è un altro problema a cui spesso si fa fronte con l’apprendimento non supervisionato. Lo stesso principio si applica per individuare attività terroristica considerando l’attività delle cellule in una rete.

¹Kelleher, J.D, Tierney, B, Data Science, London, 2018.

Licenza

Icon for the Creative Commons Attribution 4.0 International License

I dati devono sempre essere etichettati?

Licenza

Condividi questo libro