Eine visuelle Einführung ins Maschinelle Lernen
Maschinelles Lernen bedeutet, dass Computer statistische Lernverfahren anwenden, um automatisch Muster in Daten zu erkennen. Dadurch wird es möglich, sehr genaue Vorhersagen zu treffen.
Weiter scrollen. Mit einem Datensatz über Schmerzzustände von Ratten erstellen wir im Folgenden ein Modell, um leidende Ratten von solchen zu unterscheiden, die sich wohlfühlen.
Scrollen
Zunächst, ganz anschaulich
Nehmen wir an, Du musst entscheiden, ob sich eine Ratte wohlfühlt oder es ihr schlecht geht. In der Sprache des Maschinellen Lernens wird eine solche Kategorisierung von Daten als Klassifikation bezeichnet.
Da eine muntere Ratte weit geöffnete Augen hat, kann die Augenöffnung ein guter Ansatz sein, um die Befindlichkeit zu unterscheiden.
MMit dem Datensatz über die Augenöffnung auf der rechten Seite könnte man argumentieren, dass eine Ratte mit großen Augenöffnungen als eine Wohlfühlende klassifiziert werden sollte.
Feinere Abstufungen
Wenn wir eine weitere Dimension hinzufügen, können wir feinere Abstufungen vornehmen. Leidende Tieren, zum Beispiel, glätten ihre Nase häufiger.
Wenn wir Augenöffnung und Nasenglättung in einem Streudiagramm darstellen, können wir auch Ratten mit kleinerer Augenöffnung auseinanderhalten.
Die Daten zeigen, dass unter den Tieren, die eine kleinere Augenöffnung haben, diejenigen sich schlecht fühlen, die mehrmals ihre Nase geglättet haben.
Die Dimensionen in einem Datensatz werden auch Features, Prädiktoren, oder Variablen genannt. 1
Grenzen ziehen
Man kann die Augenöffnung und die Nasenglättung als Grenzen von Regionen im Streudiagramm darstellen. Die Ratten in der grünen Region fühlen sich wohl, diejenigen in der blauen fühlen sich schlecht.
Statistisches Lernen ist im wesentlichen das Ziehen von Grenzen in Daten mit Hilfe der Mathematik.
Natürlich benötigt man weitere Daten, um Ratten mit kleinerer Augenöffnung und niedrigerer Nasenglättung zu unterscheiden.
Der Datensatz, den wir verwenden, um unser Modell zu erstellen, hat fünf Dimensionen. Das Erstellen eines Modells wird auch als Training bezeichnet.
Auf der rechten Seite zeigen wir die Variablen in einer Streudiagramm-Matrix, um die Beziehungen zwischen allen Paaren von Dimensionen zu zeigen.
Es gibt zwar eindeutig Muster in den Daten, aber die Grenzen sind nicht so offensichtlich.
Und jetzt zum maschinellen Lernen
Maschinelles Lernen kommt ins Spiel, wenn es darum geht, Muster zu erkennen. Maschinelle Lernverfahren benutzen statistisches Lernen, um Grenzen in Daten zu erkennen.
Ein Beispiel für ein Lernverfahren ist der Entscheidungsbaum. Entscheidungsbäume betrachten immer nur eine Variable gleichzeitig und sind eine relativ anschauliche (wenn auch schlichte) Methode.
Bessere Grenzen ziehen
Betrachten wir noch einmal die Augenöffnung, um zu sehen, wie wir die Vorhersage verbessern können.
Hier brauchen wir eine andere Perspektive.
Wenn wir unsere Darstellung in ein Histogramm umwandeln, können wir besser erkennen, wie viele Ratten es für jede Augenöffnung gibt.
Die erste Verzweigung
Ein Entscheidungsbaum verwendet Wenn-Dann-Anweisungen, um Muster in den Daten zu erkennen.
Zum Beispiel: Wenn die Augenöffnung einer Ratte groß ist, dann fühlt sie sich wahrscheinlich wohl.
Im maschinellen Lernen werden diese Aussagen als Verzweigungen bezeichnet. Sie teilen die Daten in zwei Zweige auf, je nach Wert.
Der Wert, an dem sich die Daten in zwei Äste verzweigen, wird als Schwellenwert bezeichnet. Die Ratten auf der linken Seite des Schwellenwerts werden der einen Klasse zugeordnet, diejenigen auf der rechten Seite der anderen. Der Schwellenwert ist das Mittel, mit dem ein Entscheidungsbaum Grenzen zieht.
Kompromisse
Einen Schwellenwert zu wählen, erfordert Kompromisse. Unsere erste Verzweigung klassifiziert das Befinden ein paar Tiere, die sich wohlfühlen als 'schlecht'.
Der große grüne Bereich im linken Tortendiagramm entspricht Ratten, die sich wohlfühlen, die falsch klassifiziert wurden. Diese werden als falsch negativ bezeichnet.
Andererseits wird ein Schwellenwert, der
Die beste Aufteilung
Bei der besten Aufteilung sollten die Ergebnisse in jedem Ast möglichst homogen (oder rein) sein. Es gibt verschiedene mathematische Methoden, um die beste Aufteilung zu berechnen. 2
Wie wir hier sehen, trennt die beste Aufteilung eines einzelnen Merkmals die sich wohlfühlenden Ratten nicht vollständig, die sich schlecht fühlen.
Rekursion
Um eine weitere Verzweigung hinzuzufügen, wiederholt der Algorithmus den Prozess auf Teilmengen der Daten. Diese Wiederholung wird als Rekursion bezeichnet, ein Konzept, das häufig in Trainingsverfahren verwendet wird.3
Die Histogramme links zeigen die Verteilung jeder Teilmenge, wiederholt für jede Variable.
Die beste Aufteilung variiert je nach betrachtetem Zweig des Baumes.4
Für die Tiere mit Straffung der Augenhöhle ist das Nasenglätten im Videodie beste Variable für die nächste wenn-dann-Anweisung. Für Ratten mit weiter geöffneten Augen ist es der Abstand der SchnurrhaareY.
.Den Baum wachsen lassen
Zusätzliche Verzweigungen fügen neue Informationen hinzu, die die Vorhersagegenauigkeit des Baums erhöhen können.
Fügt man eine weitere Verzweigung hinzu, verbessert sich die Genauigkeit des Baums auf.
Man könnte so lange Verzweigungen hinzufügen, bis die Vorhersagegenauigkeit des Baums 100% beträgt, sodass am Ende jedes Astes die Ratten sich entweder wohl oder schlecht fühlen.
Diese Enden des Baums werden Blätter genannt. Unser Entscheidungsbaum weist die Tiere in jedem Blatt derjenigen Klasse zu, die die Mehrheit in dem Blatt stellt.
Vorhersagen treffen
Ob eine Ratte sich wohl oder schlecht fühlt, bestimmt der gerade trainierte Entscheidungsbaum, indem er einen Datenpunkt durch seine Äste führt.
Hier sieht man die Daten, die zum Training verwendet wurden, durch den Baum fließen.
Diese Daten werden Trainingsdaten genannt, weil sie zum Trainieren des Modells verwendet wurden.
Weil wir den Baum so lange haben wachsen lassen, bis die Genauigkeit 100% betrug, ordnet er die Trainingsdaten den Nagern perfekt zu.
Realitätstest
Wichtiger ist natürlich, wie gut der Baum bei neuen Daten funktioniert.
Um die Leistung des Baums bei neuen Daten zu testen , müssen wir ihn auf Datenpunkte anwenden, die er noch nie zuvor gesehen hat. Diese werden Testdaten genannt.
Idealerweise sollte der Baum auf bekannten und neuen Daten ungefähr gleich gut funktionieren.
Das ist also nicht so toll.5
Diese Fehler sind auf Überanpassung (overfitting) zurückzuführen. Unser Modell hat gelernt, auf kleinste Details in den Trainingsdaten zu reagieren – auch auf solche, die eigentlich irrelevant sind.
Überanpassung ist Teil eines grundlegenden Konzeptes im maschinellen Lernen, das wir in unserem nächsten Abschnitt erklären.6
Zusammenfassung
- Maschinelles Lernen findet Muster, indem – durch statistisches Lernen auf Computern – Grenzen in Datensätzen aufgedeckt werden. Man kann es verwenden, um Vorhersagen zu treffen.
- Ein Beispiel für ein Vorhersageverfahren sind Entscheidungsbäume, die eine Reihe von wenn-dann Anweisungen verwenden, um Grenzen zu ziehen und damit Muster in den Daten zu finden.
- Überanpassung geschieht, wenn einige Grenzen auf Unterscheidungen basieren, die eigentlich bedeutungslos sind. Überanpassung kann man erkennen, indem man das Modell mit Testdaten speist.
Fussnoten
- Die Begriffe des maschinellen Lernens wurden in verschiedenen Disziplinen geprägt (Informatik, Statistik, Ingenieurwesen, Psychologie, etc.) – daher auch die unterschiedliche Nomenklatur.
- Um mehr über die Berechnung der optimalen Aufteilung zu erfahren, suche nach 'Gini index' oder 'cross entropy'.
- Computer sind gut darin, repetitive Aufgaben zu erledigen – schnell und ohne sich zu langweilen. Deshalb sind sie gut geeignet für statistisches Lernen.
- Der hier beschriebene Algorithmus wird gierig (greedy) genannt. Er geht von oben nach unten durch die Daten, und sucht nach derjenigen Variablen, die in diesem Moment die homogenste Aufteilung der verbleibenden Datenmenge ermöglicht.
- Fahre mit der Maus über die Punkte, um zu sehen, welchen Weg durch den Baum sie genommen haben.
- (Es ist der Kompromiss zwischen Bias und Varianz!)