"

Additional Content

L’apprendimento automatico e l’IA valutati attraverso esperimenti sui dati effettuati con Orange

Blaž Zupan

I delfini sono mammiferi? Se è così, per quale motivo?

Che specie di animale è un  kiwi?

Atene e Roma si trovano nella medesima fascia climatica?

Chi ha realizzato un famoso dipinto raffigurante una figura che urla? Questo artista  dipinge sempre il cielo di colore arancione?

Siamo in grado di indovinare chi sia l’autore di un post sui social media soltanto dallo stile con cui scrive?

Per quanto riguarda il suo stile di gioco, Luka Dončič ha un clone nell’NBA?

È possibile indovinare a che specie appartiene un albero dalle sue foglie? O da una fotografia della sua corteccia?

Come si raggruppano i Paesi del mondo in virtù delle loro caratteristiche socio economiche? Il mondo è davvero diviso in nord e sud da un punto di vista socioeconomico?

In base ai modelli climatici la capitale di quale Paese è più simile a Berlino?

La scienza dei dati, in particolar modo i metodi di apprendimento automatico, funge da catalizzatore di cambiamento in vari campi come le scienze, l’ingegneria e la tecnologia andando a influenzare significativamente la nostra vita quotidiana. Le tecniche di calcolo capaci di attingere a estesi sistemi di dati, identificare schemi affascinanti e costruire modelli previsionali stanno diventando onnipresenti. Tuttavia sono pochi i professionisti a possedere una comprensione fondamentale della scienza dei dati e ancora meno quelli coinvolti attivamente nell’elaborazione di modelli per i propri dati. In un’età nella quale l’IA plasma in sordina il nostro mondo, chiunque deve essere consapevole delle proprie capacità, dei vantaggi di cui può fruire e dei rischi potenziali a cui si espone. Dobbiamo fissare dei metodi per comunicare in modo efficace e insegnare concetti connessi con la scienza dei dati a un vasto pubblico. I principi e le tecniche dell’apprendimento automatico, della scienza dei dati e dell’intelligenza artificiale dovrebbero diventare conoscenze condivise.

Ad ogni quesito posto all’inizio di questo capitolo si può fornire una risposta osservando i dati pertinenti. Proponiamo un approccio all’addestramento all’apprendimento automatico che inizi con un quesito, trovi i dati pertinenti, e poi risponda al quesito individuando schemi e modelli di dati appropriati. Nel progetto Pumice stiamo sviluppando delle attività didattiche che possono essere utilizzate come arricchimento di diverse materie scolastiche. Facciamo uso di dati connessi alla materia e li approfondiamo utilizzando l’IA e approcci di apprendimento automatico. In collaborazione con dei pedagogisti, abbiamo sviluppato dei modelli di apprendimento e delle spiegazioni di base per insegnanti e studenti.

Le attività e la formazione con Pumice sono supportate da Orange, un programma di apprendimento automatico dotato di un’interfaccia intuitiva, visualizzazioni interattive e programmazione grafica. La chiave per ottenere la semplicità richiesta nella formazione e la versatilità per trattare moltissimi degli argomenti base e per adattarsi a svariate aree di applicazione è una costruzione simile a quelle che si creano con i mattoncini Lego di pipeline analitiche e interattività di tutti i componenti (v. Fig. 1). Per supportare ulteriormente gli insegnanti e concentrarsi sui concetti anziché sui meccanismi sottesi, Orange implementa facilità di accesso ai dati, riproducibilità tramite il salvataggio dei flussi di lavoro con tutte le varie impostazioni e scelte basate sull’utente e una facile personalizzazione attraverso la progettazione di nuovi componenti. Un aspetto cruciale della formazione comprende la narrazione attraverso la verifica dei flussi di lavoro e funzionalità specifiche per la sperimentazione, come tracciare le serie di dati sperimentali o apprendere informazioni sull’over-fitting della regressione lineare o polinomiale. Orange è disponibile come software open-source ed è corredato da un breve video illustrativo.

Fig. 1. Il software di data mining Orange e un tipico flusso di lavoro di esplorazione dati.

Nella fig. 1 illustriamo un tipico flusso di lavoro per l’esplorazione dei dati di Orange. Il flusso di lavoro è costituito da componenti che caricano i dati, calcolano le distanze, visualizzano i dati o i modelli risultanti, oppure portano a compimento qualsiasi attività necessaria per rinvenire e visualizzare schemi di dati. In questo flusso di lavoro abbiamo utilizzato i dati socioeconomici provenienti da diversi Paesi del mondo. Il ramo superiore del flusso di lavoro studia due caratteristiche e mostra come le aspettative di vita e gli anni trascorsi a scuola siano correlati. Indica anche che vi sono Paesi come Capo Verde e il Marocco dove le persone vivono a lungo, ma non passano molto tempo a scuola. I ragazzi a scuola possono progettare queste reti e valutare quali Paesi sono simili da un punto di vista socioeconomico e dove possono riscontrare che il mondo sia socioeconomicamente diviso in nord, centro e sud e che non c’è una dicotomia profonda tra parti sviluppate o meno sviluppate del mondo. Non è necessario spiegarlo loro esplicitamente, lo scopriranno con il data mining di Orange e nelle ultime classi indagheranno da soli queste distinzioni.

Lo sviluppo di Orange è cominciato nel 2003 e da allora ha guadagnato molta popolarità. Con più di cinquantamila utenti diversi al mese, Orange si è attestato come applicazione software specialistica ampiamente adottata. Circa la metà dei suoi utenti appartiene al mondo accademico. In particolare, Orange ha sperimentato un considerevole successo all’interno del settore dell’istruzione, infatti più di cinquecento università in tutto il mondo l’hanno introdotto nei propri corsi dedicati alla scienza dei dati.

Divulghiamo di seguito un elenco di risorse rivolte a docenti desiderosi di approfondire temi come l’apprendimento automatico e la scienza dei dati, che forniranno loro un’introduzione a queste discipline attraverso un’esplorazione pratica dei dati effettuata utilizzando Orange:

Pumice è un sito web per insegnanti in cui si raggruppano casistiche di utilizzo dell’IA che potete inserire nel vostro programma di formazione.