Eine visuelle Einführung ins Maschinelle Lernen

language: :

Maschinelles Lernen bedeutet, dass Computer statistische Lernverfahren anwenden, um automatisch Muster in Daten zu erkennen. Das macht es möglich, sehr genaue Vorhersagen zu treffen.

Weiter scrollen. Mit einem Datensatz über Wohnungen in den Vereinigten Staaten erstellen wir im folgenden ein Modell, um Wohnungen in New York von solchen in San Francisco zu unterscheiden.

Scrollen

Zunächst, ganz anschaulich

Nehmen wir an, Du musst entscheiden, ob sich eine Wohnung in San Francisco oder in New York befindet. In der Sprache des Maschinellen Lernens wird eine solche Kategorisierung von Daten als Klassifikation bezeichnet.

Da San Francisco relativ hügelig ist, kann die Höhe der Wohnung über dem Meeresspiegel ein guter Ansatz sein, um die beiden Städte zu unterscheiden.

Mit dem Datensatz über Höhenlagen auf der rechten Seite könnte man argumentieren, dass eine Wohnung auf mehr als 73 Metern über dem Meeresspiegel als eine in San Francisco klassifiziert werden sollte.

Feinere Abstufungen

Wenn wir eine weitere Dimension hinzufügen, können wir feinere Abstufungen vornehmen. Wohnungen in New York, zum Beispiel, haben sehr hohe Quadratmeterpreise.

Wenn wir Höhe und Preis pro Quadratmeter in einem Streudiagramm darstellen, können wir auch Wohnungen mit geringerer Höhe als 73 m auseinanderhalten.

Die Daten zeigen, dass unter den Wohnungen, die bis zu 73 Meter über dem Meeresspiegel liegen, diejenigen in New York sind, die mehr als 19.116,7$ pro Quadratmeter kosten.

Die Dimensionen in einem Datensatz werden auch Features, Prädiktoren, oder Variablen genannt.

Grenzen ziehen

Man kann die Höhe (> 73 Meter) und den Preis pro Quadratmeter (> 19.116 $) als Grenzen von Regionen im Streudiagramm darstellen. Die Wohnungen in der grünen Region liegen in San Francisco, diejenigen in der blauen liegen in New York.

Statistisches Lernen ist im wesentlichen das Ziehen von Grenzen in Daten mit Hilfe der Mathematik.

Natürlich benötigt man weitere Daten, um Wohnungen mit niedriger Höhe und niedrigerem Quadratmeterpreisen zu unterscheiden.

Der Datensatz, den wir verwenden, um unser Modell zu erstellen, hat sieben Dimensionen. Das Erstellen eines Modells wird auch als Training bezeichnet.

Auf der rechten Seite zeigen wir die Variablen in einer Streudiagramm-Matrix, um die Beziehungen zwischen allen Paaren von Dimensionen zu zeigen.

Es gibt zwar eindeutig Muster in den Daten, aber die Grenzen sind nicht so offensichtlich.

Und jetzt zum maschinellen Lernen

Maschinelles Lernen kommt ins Spiel, wenn es darum geht, Muster zu erkennen. Maschinelle Lernverfahren benutzen statistisches Lernen, um Grenzen in Daten zu erkennen.

Ein Beispiel für ein Lernverfahren ist der Entscheidungsbaum. Entscheidungsbäume betrachten immer nur eine Variable gleichzeitig und sind eine relativ anschauliche (wenn auch schlichte) Methode.

Bessere Grenzen ziehen

Betrachten wir noch einmal die 73-m-Höhengrenze, um zu sehen, wie wir die Vorhersage verbessern können.

Hier brauchen wir eine andere Perspektive.

Wenn wir unsere Darstellung in ein Histogramm umwandeln, können wir besser erkennen, wie viele Wohnungen es in jeder Höhenlage gibt.

Obwohl die höchste Wohnung in New York auf 73 m liegt, haben die meisten doch eine weit niedrigere Lage.

Die erste Verzweigung

Ein Entscheidungsbaum verwendet wenn-dann Anweisungen, um Muster in den Daten zu erkennen.

Zum Beispiel: Wenn die Höhe einer Wohnung über einem bestimmten Wert liegt, dann ist sie wahrscheinlich in San Francisco.

Im maschinellen Lernen werden diese Aussagen als Verzweigungen bezeichnet. Sie teilen die Daten in zwei Zweige auf, je nach Wert.

Der Wert, an dem sich die Daten in zwei Äste verzweigen, wird als Schwellenwert bezeichnet. Die Wohnungen auf der linken Seite des Schwellenwerts werden der einen Klasse zugeordnet, diejenigen auf der rechten Seite der anderen. Der Schwellenwert ist das Mittel, mit dem ein Entscheidungsbaum Grenzen zieht.

Kompromisse

Einen Schwellenwert zu wählen, erfordert Kompromisse. Unsere erste Verzweigung (~ 73 m) klassifiziert ein paar Wohnungen in San Francisco als 'New York'.

Der große grüne Bereich im linken Tortendiagramm entspricht Wohnungen in San Francisco, die falsch klassifiziert wurden. Diese werden als falsch negativ bezeichnet.

Andererseits wird ein Schwellenwert, der alle Wohnungen in San Francisco erfasst, auch viele Wohnungen in New York erfassen. Diese werden dann als falsch positiv bezeichnet.

Die beste Aufteilung

Bei der besten Aufteilung sollten die Ergebnisse in jedem Ast möglichst homogen (oder rein) sein. Es gibt mehrere mathematische Methoden, die zur Berechnung der besten Aufteilung verwendet werden können.

Wie wir hier sehen, trennt auch die beste Aufteilung eines einzelnen Merkmals die Wohnungen in San Francisco nicht vollständig von denen in New York.

Rekursion

Um eine weitere Verzweigung hinzuzufügen, wiederholt der Algorithmus den Prozess auf Teilmengen der Daten. Diese Wiederholung wird als Rekursion bezeichnet. Das ist ein Konzept, das häufig in Trainingsverfahren verwendet wird.

Die Histogramme links zeigen die Verteilung jeder Teilmenge, wiederholt für jede Variable.

Die beste Aufteilung variiert, je nach dem, welchen Zweig des Baumes man gerade betrachtet.

Für die Wohnungen mit geringer Höhe über dem Meeresspiegel ist der Preis X die beste Variable für die nächste wenn-dann-Anweisung. Für höher liegende Wohnungen ist es der Quadratmeterpreis Y.

Den Baum wachsen lassen

Zusätzliche Verzweigungen fügen neue Informationen hinzu, die die Vorhersagegenauigkeit des Baums erhöhen können.

Fügt man eine weitere Verzweigung hinzu, so verbessert sich die Genauigkeit des Baums auf 84% .

Wenn wir weitere Verzweigungen hinzufügen, erhalten wir 96% .

Man könnte sogar so lange Verzweigungen hinzufügen, bis die Vorhersagegenauigkeit des Baums 100% beträgt, so dass am Ende jedes Astes die Wohnungen ausschließlich in San Francisco oder in New York liegen.

Diese Enden des Baums werden Blätter genannt. Unser Entscheidungsbaum weist die Wohnungen in jedem Blatt derjenigen Klasse zu, die die Mehrheit in dem Blatt stellt.

Vorhersagen treffen

Ob eine Wohnung in San Francisco oder New York liegt, bestimmt der gerade trainierte Entscheidungsbaum, indem er einen Datenpunkt durch seine Äste führt.

Hier sieht man die Daten, die zum Training verwendet wurden, durch den Baum fließen.

Diese Daten werden Trainingsdaten genannt, weil sie zum Trainieren des Modells verwendet wurden.

Weil wir den Baum so lange haben wachsen lassen, bis die Genauigkeit 100% betrug, ordnet er die Trainingsdaten den Städten perfekt zu.

Realitätstest

Wichtiger ist natürlich, wie gut der Baum bei neuen Daten funktioniert.

Um die Leistung des Baums bei neuen Daten zu testen , müssen wir ihn auf Datenpunkte anwenden, die er noch nie zuvor gesehen hat. Diese werden Testdaten genannt.

Idealerweise sollte der Baum auf bekannten und neuen Daten ungefähr gleich gut funktionieren.

Das ist also nicht so toll.

Diese Fehler sind auf Überanpassung (overfitting) zurückzuführen. Unser Modell hat gelernt, auf kleinste Details in den Trainingsdaten zu reagieren – auch auf solche, die eigentlich irrelevant sind.

Überanpassung ist Teil eines grundlegenden Konzeptes im maschinellen Lernen, das wir in unserem nächsten Artikel erklären.

Zusammenfassung

Maschinelles Lernen findet Muster, indem – durch statistisches Lernen auf Computern – Grenzen in Datensätzen aufgedeckt werden. Man kann es verwenden, um Vorhersagen zu treffen.
Ein Beispiel für ein Vorhersageverfahren sind Entscheidungsbäume, die eine Reihe von wenn-dann Anweisungen verwenden, um Grenzen zu ziehen und damit Muster in den Daten zu finden.
Überanpassung geschieht, wenn einige Grenzen auf Unterscheidungen basieren, die eigentlich bedeutungslos sind. Überanpassung kann man erkennen, indem man das Modell mit Testdaten speist.

Fortsetzung folgt

In unserem nächsten Beitrag beschäftigen wir uns mit Überanpassung, und mit einem grundlegenden Kompromiss beim maschinellen Lernen.

Fragen? Ideen? Wir freuen uns, von euch zu hören. Gerne auf Twitter. @r2d3us Oder per email. team@r2d3.us.

Schließlich, vielen Dank an Leath Al Obaidi (LinkedIn, Twitter) und David Blumenthal-Barby (LinkedIn) für die Übersetzung!

Folge uns auf Twitter...

Eine visuelle Einführung ins Maschinelle Lernen
Posted by @r2d3us on Twitter

...oder Facebook...

Eine visuelle Einführung ins Maschinelle Lernen
Posted by R2D3 on Facebook

... oder bleib über E-Mail mit uns in Verbindung

Fussnoten

Die Begriffe des maschinellen Lernens wurden in verschiedenen Disziplinen geprägt (Informatik, Statistik, Ingenieurwesen, Psychologie, etc.) – daher auch die unterschiedliche Nomenklatur.
Um mehr über die Berechnung der optimalen Aufteilung zu erfahren, suche nach 'Gini index' oder 'cross entropy'.
Computer sind gut darin, repetitive Aufgaben zu erledigen – schnell und ohne sich zu langweilen. Deshalb sind sie gut geeignet für statistisches Lernen.
Der hier beschriebene Algorithmus wird gierig (greedy) genannt. Er geht von oben nach unten durch die Daten, und sucht nach derjenigen Variablen, die in diesem Moment die homogenste Aufteilung der verbleibenden Datenmenge ermöglicht.

Fahre mit der Maus über die Punkte, um zu sehen, welchen Weg durch den Baum sie genommen haben.

(Es ist der Kompromiss zwischen Bias und Varianz!)