Neuronale Netze: Kontrolle gefordert

Fachleute warnen: Lernende Algorithmen dürfen nicht unkontrolliert eingesetzt werden und arbeiten.

Ausgangspunkt für diesen Blogpost war zunächst ein Gespräch mit BigData/ML-Unternehmerin und Buchautorin Yvonne Hofstetter auf einer Veranstaltung des hamburger Körber Forums zum Thema „BigData das Ende der Demoekratie?“. Es ging darum, dass selbstlernende Algorithmen unter gewissen Umständen völlig unbemerkt, sogar nahezu unbemerkbar gravierende Fehler machen können, die immensen Schaden anrichten. Beispielsweise könnten Menschen aufgrund falsch arbeitender Algorithmen keinen Kredit oder keine Krankenversicherung bekommen, eine Therapie nicht erhalten oder zu unrecht unter Terrorverdacht geraten. Ich habe dieses Thema gestern im Blue Hackers Club, einer Veranstaltung der IBM Hamburg vorgestellt und in einer Gruppe diskutiert. Die Ergebnisse dieser Diskussion stelle ich hier vor. Dieser Blogpost soll einen Anstoß zu einer breiteren Debatte zu Möglichkeiten des verantwortungsvollen Umgangs mit machine Learning darstellen und auch nicht-Technikern die Problematik verständlich machen.

Schnelleinführung

Künstliche neuronale Netze sind ein Teilgebiet der Künstlichen Intelligenz. Ähnlich wie unser Gehirn lernen diese Algorithmen, indem sie mit Daten trainiert werden. Es gibt beispielsweise Email Spamfilter, die auf dieser Technologie basieren und mit guten und schlechten Emails trainiert werden. Neuronale Netze können so automatische Fallunterscheidungen und Kategorisierungen vornehmen. In der Praxis werden sie beispielsweise in der Bilderkennung, Spracherkennung, Übersetzung aber auch zur Kategorisierung/Analyse/Bewertung von Texten, Sprache, Bildern oder Eigenschaften von Nutzern/Personen eingesetzt. Künstliche neuronale Netze arbeiten auf basis von Statistik. Sie sind also nur in der Lage anzugeben, mit wie hoher Wahrscheinlichkeit ein Datensatz einer bestimmten Kategorie zuzuordenen ist, jedoch nicht warum (Kausalität). Genau diese Eigenschaft kann in der Praxis unbemerkt zu immensem Schaden führen.

Warum es Fehler gibt, die niemand finden kann

Wenn künstliche neuranale Netze eine Kategorisierung vornehmen, gibt es viele Fälle, in den wir klar prüfen können, ob die Entscheidung korrekt war. Wenn zum Beispiel auf einem Fließband Fotos von Bauteilen gemacht werden und ein lernender Algorithmus darauf kaputte Bauteile von ganzen unterscheidet, können wir uns das Bauteil ansehen und prüfen, ob die Entscheidung richtig war. Es gibt aber sehr viele Fälle, in denen wir das nicht können. Zum Beispiel, wenn ein Algorithmus prüft, ob ein Bewerber für eine Stelle geeignet ist, ob eine Person ein geringes Ausfallrisiko bei Krediten oder in der privaten Krankenversicherung haben würde. Würde hier ein Fehler auftreten, wäre es schwer ihn überhaupt zu bemerken. Doch selbst wenn wir die Vermutung haben, dass eine Entscheidung nicht korrekt ist, können wir das nicht prüfen. Denn ein künstliches neuronales Netz arbeitet zum einen auf Basis von Wahrscheinlichkeiten und gibt keinerlei Auskunft darüber, warum eine entscheidung so getroffen wurde. Das ist auch technisch nicht nachvollziehbar. Das zweite Problem ist, dass ein solcher Algortihmus so lange er trainiert wird, nicht deterministisch ist. Das heißt, dass die selbe Eingabe nicht zwingend zur gleichen Ausgabe führt. Das ist wie bei uns Menschen: Ein Mensch könnte schon nach wenigen Tagen in der selben Situation andere Entscheidungen treffen als zuvor. Je mehr Zeit vergeht, um so wahrscheinlicher ist es, dass wir andere Entscheidungen treffen würden. Beispielsweise als Kind und später als Erwachsener. Macht also ein neuronales Netz einen Fehler, ist es schwer bis unmöglich, die Ursache festzustellen.

Wenn ein Algorithmus statt feindlicher Panzer das Wetter erkennt

Nachdem wir wissen, dass wir Fehler nicht finden, fragt sich, welche Fehler passieren können. Ein sehr berühmtes Beispiel ist ein Fall, in dem die US Army mit einem künstlichen neuronalen Netzwerk Panzer auf Bildmaterial erkennen wollte. Zum Trainieren wurden viele Bilder von Landschaften mit Panzern genutzt. Um auszuschließen, dass der Algorithmus die Vegetation als Entscheidungsmerkmal einbezieht, wurden zum Training bei allen Fotos mit Panzern und ohne Panzer etwa gleich viele Fotos auf offener Fläche und Fotos mit Vegetation genutzt. Im Praxistest stellte sich heraus, dass der Algorithmus nicht zuverlässig Panzer erkennt. Bei der Untersuchung der Ursache fand man heraus, dass die meisten Fotos ohne Panzer bei schlechtem Wetter aufgenommen wurden, diejenigen mit Panzern bei gutem Wetter. Der Algorithmus hat also statt der Erkennung von Panzern gelernt, gutes Wetter von schlechtem zu unterscheiden. Man hatte das System versehentlich auf die falschen Merkmale (Features) trainiert. Wenn ein vollautomatisches System anfängt, anstatt feindlicher Panzer die Vegetation zu bekämpfen, merkt man schnell dass etwas nicht stimmt. Wenn ein System aber aufgrund unbeabsichtigter Merkmale die Kreditwürdigkeit niedriger einstuft, würde das gar nicht auffallen. So könnte es sein, dass Menschen mit einem Doppelkonsonanten im zweiten Vornamen als Kreditunwürdig eingestuft würden. Gerade da dieser Fehler nur wenige beträfe, würde ein solch gravierender Fehler unbemerkt bleiben. Das Problem hier ist, dass Maschinen anders „sehen“ als Menschen. So haben Tesla Fahrzeuge auf freier Straße eine Vollbremsung hingelegt, weil eine plattgefahrene Coladose auf der Straße lag. Die Analyse ergab, dass eine Wölbung der Dose ein derart großes Radarecho erzeugte, dass der Computer ein Objekt der Größe eines LKW wahrnahm und folglich die Vollbremsung einleitete. Es ist also teilweise wirklich schwer, die richtigen Features für die Klassifizierung auszusuchen.

Kein System kann das Problem lösen

Meine Idee auf dem Blue Hackers Day war, ein System zu entwickeln, dass Entwickler bei der Auswahl der Trainingsdaten unterstützt und hilft, solche Fehler zu vermeiden. In der Diskussion überlegten wir, dass uns das System die Merkmale aufzeigen und verständlich machen müsste, auf Basis deren win Algorithmus unterscheidet, sodass wir den Merkmalsraum für die Fallunterscheidung korrekt und ohne ungewollte Merkmale festlegen können. Das wäre auf Basis der Daten möglich, so könnte uns der Algorithmus im Falle der Panzer die Daten aufzeigen. Doch diese zu interpretieren stellt das Problem dar. Aus den Farbwerten abzuleiten und uns zu informieren, dass das Wetter eine rolle spielt, ist maschinell nicht leistbar. Das System müsste ja beliebige Konzepte wie Wetter, Kleidungsstil, Spiegelungen, Behaarung usw. verstehen und anhand der Daten erkennen können. Somit kann dieses problem weder sinnvoll maschinell, noch zuverlässig und vollständig durch Menschen gelöst werden.

Das nächste massive Problem ist die Anzahl der Trainingsdaten. Das die Systeme auf basis von Statistik arbeiten, müssen genügend viele Lerndatensätze genutzt werden, damit eine statistische Relevanz geben ist. Zudem muss man sicherstellen, dass in den Trainingsdaten keine zufällige Häufung eines Merkmals auftritt. So könnte eine unbeabsichtigte Häufung von bestimmten Merkmalen eine fehlerhafte Kategorisierung erzeugen. Ein klassisches Problem der Statistik: Bei der Untersuchung der Rate von Krebserkrankungen in der Nähe von Atomkraftwerken fiel auf, dass in der Nähe der Atomkraftwerke überdurchschnittlich mehr alte Menschen wohnten, unter denen Krebserkrankungen per se häufiger auftreten. Will man nun untersuchen, ob die Atomkraftwerke zu einer höheren Krebsrate führen, muss dieser Faktor zunächst bereinigt werden. Solche Probleme spielen natürlich auch bei Trainingsdaten eine große Rolle.

Ethische und Kulturelle Probleme zu berücksichtigen

Googles Bilderkennungsalgorithmus hat jüngst ein dunkelhäutiges Pärchen als „Gorillas“ erkannt. Man könnte aus technischer Sicht argumentieren, dass er uns Menschen innerhalb der Säugetiergattungen schon fast richtig einsortiert hätte. Aus Ethischen Gesichtspunkten ist ein solches Ergebnis jedoch völlig inakzeptabel. Was aber akzeptabel ist und was nicht, unterliegt kulturellen und regionalen Unterschieden. Auch hier braucht es je nach Einsatzgebiet eine Prüfung durch Fachleute.

Jeder kann und darf neuronale Netze einsetzen

Es bedarf also gut ausgebildeter Spezialisten auf diversen Spezialgebieten um neuronale Netze zu planen, zu trainieren und im Betrieb zu überwachen. Doch mit den heutigen Diensten der Cloud Service Anbieter wie Amazon, Google, IBM und Microsoft ist es kinderleicht für Entwickler, künstliche neuronale Netze zu nutzen und kommerzielle Produkte und Lösungen damit anzubieten. Machine Learning gilt mit Recht als Schlüsseltechnologie für das Internet der Dinge, Industrie 4.0 und smarte Dienste und ist gerade deshalb so beliebt, weil man es für die verschiedensten Problemlösungen einsetzen kann. Ich behaupte aber, dass die meisten, die sie heute einsetzen die oben genannten Aspekte nur bedingt kennen, geschweige denn dazu in der Lage sind, sie zu berücksichtigen. Und hier nehme ich mich selbst nicht aus.

Unerschütterlicher Glaube an Algorithmen

Das wäre alles halb so problematisch, wenn alle entsprechend kritisch und vorsichtig mit den Ergebnissen der Algorithmen umgingen. In der Praxis existiert jedoch ein nahezu unerschütterlicher Glaube an die Richtigkeit solcher Ergebnisse. Wenn das ein Algorithmus gesagt hat, muss es ja stimmen. Mitarbeiter von Versicherungen werden die Richtigkeit von Scoringverfahren kaum Anzweifeln. Immerhin wurde das System von Spezialisten entwickelt. Und wie oben beschrieben gibt es keine Möglichkeit, nach dem Warum zu fragen, wenn ein Computer eine solche Entscheidung fällt. Blackbox. Es ist halt so. Und selbst wenn im besten Fall die Systeme nur als Berater dienen und ein Mensch die Entscheidung trifft, so vertraut dieser leicht zu sehr auf das vermeintlich sichere Urteilsvermögen des lernenden Systems.

Forderungen

1. Klassifikation von Anwendungsgebieten – Cost of Failure

Wir haben in der gestrigen Runde folgende Ideen entwickelt. Zunächst sollte es eine Einstufung geben, wie groß die Auswirkungen in dem Fall sind, dass der Algorithmus Fehler erzeugt. Es macht schließlich einen Unterschied, ob einer Person in der Folge ein Werbebanner für Damenunterwäsche statt eines Bürostuhls angezeigt wird oder ob ein Kredit oder eine Krankenversicherung fälschlicherweise nicht Gewährt werden, ein Patient eine Behandlung erfährt, oder eine Kampfdrohne das falsche Ziel bekämpft. Eis muss demnach eine Klassifikation von Anwendungsgebieten erarbeitet werden. Der Plan bestimmt, welche Maßnahmen ergriffen werden müssen um die Qualität der Ergebnisse sicherzustellen.

2. Maßnahmen zur Qualitätssicherung erforschen und entwickeln

Da die Technologien noch recht neu sind, braucht es hier ein Forschungsfeld, dass Wege findet die verschiedenen Fehlerquellen zu erkennen und zu minimieren. Zudem müssen Standardverfahren für die Bereiche entwickelt werden, die nicht maschinell geprüft werden können.

3. Ausbildung von Fachkräften

Sowohl für die Praxisarbeit mit künstlichen neuronalen Netzen als auch für deren Qualitätssicherung muss es spezialisierte Fachkräfte geben. Hierfür müssen es Ausbildungskonzepte und Zertifizierungen geschaffen werden.

4. Gesetzliche Vorschriften

In Bereichen mit hohem Cost of failure muss es gesetzliche Vorschriften geben, die eine hohe Qualität der Ergebnisse weitgehend sicher stellen.

5. Mehr Statistik an Schulen

DIeser Punkt ist eher indirekt und langfristig. Der Glaube an Statistiken ist heute noch immer sehr hoch zugleich ist der Kompetenzgrad in der Gesellschaft recht niedrig. Die breite Masse der Gesellschaft ist nur begrenzt in der Lage, Statistiken korrekt zu interpretieren und deren Aussagen zu hinterfragen. Da statistische Verfahren große Teile der digitalisierten Welt steuern, darunter beispielsweise auch die Politik, wird diese Kompetenz vermehrt gebraucht. Dem sollten die zukünftigen Lehrpläne Rechnung tragen.

 

 

Diesen Artikel teilen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.