Das wahrscheinlich bekannteste Beispiel ist das Klassifizierungsbeispiel Iris, quasi das „Hallo Welt“ des Maschinellen Lernens (*Q35). Dort gibt es drei Arten von Schwertlilien (Iris setosa, Iris versicolor und Iris virginica, s. Abbildung 46) mit jeweils vier Merkmalen: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite.
Abbildung 46 (*Q36): Eine Schwertlilie, aber von welcher Art?
Auf diversen Plattformen findet man die 150 Datensätze für das Training bzw. für das Testen. Jeweils 50 Daten sind einer der 3 Arten zugeordnet. Der Input-Layer des Neuronalen Netzwerkes hat also 4 Eingänge und der Output-Layer entweder einen Ausgang (dann mit der Codierung 0/1/2 für die drei Arten) oder 3 Ausgänge (mit den Möglichkeiten 0/0/1 oder 0/1/0 oder 1/0/0 für die 3 Arten).
Hier 3 reale Datensätze von 150 Datensätzen aus der iris.txt-Datei (1., 51. und 101. Datensatz):
5.1, 3.5, 1.4, 0.2, 0
7.0, 3.2, 4.7, 1.4, 1
6.3, 3.3, 6.0, 2.5, 2
Startet man über die main-Methode der Klasse IrisClassifier das Training und den Test, dann kann sich z. B. die Evaluations-Ausgabe von Abbildung 47 ergeben.
Abbildung 47: Metriken für eine Iris-Klassifikation
Die Evaluation sagt aus, dass nach dem Training von 105 Datensätzen (70% von 150 Datensätzen), der Test mit den verbliebenen 45 Datensätzen nur einen Fehler ergab. Der Accuracy-Wert (Anzahl der richtigen Vorhersagen / Anzahl aller Test-Datensätze) ist 44/45 = 0,9778. Aus der Confusion-Matrix ist ersichtlich, dass einmal der Output 1 gewesen ist (also falsch), statt der erwünschten 2.
Wenn man das Programm immer wieder aufrufen würde, würde man sehen, dass sich oft auch ein 1,0-Wert für die Richtigkeit (Accuracy) ergibt.
- 63 -