ZUSÄTZLICHER INHALT
Müssen Daten immer gelabelt werden?
Müssen Daten immer gelabelt werden?
Nein, nicht immer. Ein großer Teil der Algorithmen für maschinelles Lernen besteht entweder aus überwachten oder unüberwachten Lernalgorithmen.
Wenn Sie ein Foto als das eines Hundes, einer Katze oder eines Gorillas klassifizieren wollen, können Sie die Maschine mit Fotos füttern, die als Hund, Katze oder Gorilla gekennzeichnet sind. Wenn man einen Aufsatz bewerten will, kann man eine Menge korrigierter Aufsätze mit den entsprechenden Noten eingeben. In jedem Fall wussten wir, wie der Output aussehen würde: Hund, Katze, Gorilla, A+, A, A-, D …
Der Algorithmus versucht, anhand der beim Training gelabelten Daten eine Funktion oder, wenn Sie so wollen, ein mathematisches Rezept zu finden, das den Output mit dem Input abgleicht. Oft bedeutet das auch, dass der Programmierer verschiedene Algorithmen ausprobiert, um zu sehen, welcher die beste Anpassungsfunktion bietet. Solange die Daten jedoch Labels haben, fungieren diese Labels wie ein „Kontrolleur” oder ein Leitfaden, der überprüft, ob die Funktion, die vom Algorithmus ausgewählt wurde, tatsächlich funktioniert1. Wenn die Funktion ein vom Label abweichenden Output abliefert, muss der Algorithmus eine bessere Funktion finden.
Das Labeln von Daten ist jedoch ein zeit- und kostenaufwändiger Prozess, für den oft Menschen eingestellt werden müssen. Wenn wir nur nach Mustern in den Daten suchen und keine klare Vorstellung davon haben, welches Muster wir finden werden, ist uns der Output nicht bekannt. Die Daten können also nicht gelabelt werden. An dieser Stelle kommen unüberwachte Algorithmen ins Spiel.
Anstatt zu versuchen, den Input dem Output zuzuordnen, versuchen diese Algorithmen, Regelmäßigkeiten in den Daten zu finden, mit deren Hilfe der Input in Kategorien eingeteilt werden kann1. Banken nutzen unüberwachtes maschinelles Lernen, um betrügerische Aktivitäten bei Kreditkartentransaktionen zu erkennen. Da es eine riesige Anzahl von Transaktionen gibt und wir nicht wissen, wie wir Muster erkennen und eine Aktivität als Betrug einstufen sollen, verlassen wir uns auf maschinelles Lernen, um das Muster automatisch zu finden. Das Clustering einer beliebigen Gruppe von Schülern in eine feste Anzahl von Gruppen ist ebenfalls ein Problem, bei dem häufig unüberwachtes Lernen zum Einsatz kommt. Das Gleiche gilt für das Aufspüren terroristischer Aktivitäten anhand von Zellaktivitäten in einem Netzwerk.
1 Kelleher, J.D, Tierney, B, Data Science, London, 2018.