Künstliche Intelligenz mit Java - 2. Maschinelles Lernen

2. Maschinelles Lernen

Wie lernen Maschinen bzw. die dahinterstehenden Softwaresysteme eigentlich? Bei Lernalgorithmen für Maschinelles Lernen unterscheidet man in der Regel 3 Lerntypen:

Überwachtes Lernen (z. B. Regression und Klassifizierung)
Unüberwachtes Lernen (z. B. Clusterung)
Verstärkendes Lernen (z. B. Steuerung, Strategie und Optimierung)

2.1. Überwachtes Lernen (Supervised Learning)

Dieses wird u. a. für Klassifikationsaufgaben genutzt, z. B. bei der Fragestellung: „Ist auf einem Foto ein Mensch zu sehen oder nicht?“. Grundlage dafür sind Trainingsdaten, anhand derer der Algorithmus auf Vorgabe eines menschlichen Trainers lernt, was das richtige Ergebnis ist: Auf diesen 10 000 Bildern ist ein Mensch, auf diesen 10 000 Bildern nicht. Die Idee ist: Wenn ein System genügend Trainingsdaten hat, dann lernt es daraus, auch bislang unbekannte Bilder zu klassifizieren (*Q1).

Die Go-Spiele-Software AlphaGo lernte beispielsweise anhand von Millionen menschlicher Go-Spielzüge. Aber auch überwachtes Lernen kann in die Irre führen. So kursiert in Forscherkreisen das Beispiel eines Systems, welches darauf trainiert wurde, Panzer auf Bildern zu erkennen. Der Trainingsdatensatz bestand zum einen aus Werbebildern von Herstellerfirmen von Panzern, zum anderen aus beliebigen anderen Bildern, auf denen kein Panzer zu sehen war. Aber das System funktionierte leider in der Anwendung nicht: Es erkannte Panzer nicht, sondern filterte stattdessen Bilder heraus, auf denen die Sonne schien. Das Problem war, dass auf den Werbebildern stets die Sonne geschienen hatte. Der Algorithmus hatte anscheinend die Sonne als Kriterium ermittelt. Aber es gibt auch Erfolge (*Q1).

Abbildung 6 (*Q9): Googles Deep-Learning-Algorithmus benutzt einen Augenscan

Verily Life Sciences, ein Tochterunternehmen des Google-Konzerns Alphabet, hat einen auf KI basierenden Algorithmus entwickelt, der Herzerkrankungen bei einem Menschen vorhersagen kann, noch bevor konkrete Krankheitssymptome auftreten. Der Algorithmus wurde mit medizinischen Daten von rund 300 000 Patienten trainiert. Dabei wurden Scans des Augenhintergrunds eines Menschen sowie seine allgemeinen Gesundheitsdaten eingegeben. Der auf Neuronalen Netzwerken basierende selbst lernende Algorithmus erkennt nach der Trainingsphase Muster und Zusammenhänge aus den Augenscans und anderen Risikofaktoren, wie Alter, Blutdruck, Trink- und Rauchgewohnheiten sowie Vorerkrankungen. Die Software liefert eine Risikoeinschätzung für eine Herz-Kreislauf-Erkrankung innerhalb der nächsten fünf Jahre. Die Trefferquote für eine richtige Diagnose liegt bei etwa 70 %, das aktuell anerkannte Verfahren über Bluttests liegt mit 72 % zwar etwas darüber, ist jedoch deutlich zeitaufwendiger (*Q1, vgl. *Q10 ).

Bei der Erkennung von verschiedenen Krebsarten wie z. B. Darmkrebs, Speiseröhrenkrebs und Hautkrebs werden teilweise Trefferquoten von über 90% erreicht.

- 5 -