5 Gründe, auf Deep Learning zu verzichten

Kaum ein Unternehmen beschäftigt sich derzeit nicht mit maschinellem Lernen. Und spätestens seit Googles Ansage “…von Mobile First zu AI First” geht in den Strategieschmieden nichts mehr ohne künstliche Intelligenz.

Überall wird kräftig investiert in in alles, was sich auf datascienceanalytics oder learning reimt und mindestens bigcloud oder deep als Attribut besitzt.

Nun bin ich gewiss kein Maschinenstürmer, aber sehr wohl ein Gegner unüberlegter Investition in finanzielle Massengräber. Wann also ist es sinnvoll, und vor allem wann ist es völlig überflüssig in künstliche Intelligenz (AI) oder Deep Learning zu investieren?

Ihr Geschäft braucht den passenden Reifegrad

Gut – das ist eine klassische Binsenweisheit. Unter welchen Umständen ist die Investition in AI unangebracht? Machen wir es konkret:

Sie erfassen ihre Aufträge ganz konventionell, vielleicht sogar per Fax-Formular und ohne CRM System? Der größte Hebel, um vertrieblich erfolgreicher zu sein liegt in der Anreicherung des Verkaufsprozesses um attraktive Daten, AI kann warten!

Sie haben volle Auftragsbücher und ihr Geschäft lebt von Inbound-Calls? Investieren Sie besser in Content Marketing, um Daten zu sammeln, so dass Sie Kunden schon dann erkennen, wenn diese noch keine Kaufentscheidung getroffen haben!

Ihre Servicemannschaft wartet auf Reparaturanfragen der Kunden? Dann wird es höchste Zeit, dass die Produktentwicklung sich mit Remote Monitoring beschäftigt. Mindestens.

Sie besitzen bereits tonnenweise Daten und wissen nichts damit anzufangen? Statt mit neuen Strukturen zu experimentieren, suchen sie sich einen Dienstleister, der dabei hilft, Daten zu sichten und eine Strategie zu erarbeiten.

Regel 1: Erst Prozesse mit IT unterfüttern und Daten erfassen, dann Daten anreichern und erst dann lohnt sich die Investition in einen eigenen Data Science Bereich.

Auswendiglerner müssen enttarnt werden können

Bei Deep Learning & Co. handelt es sich um ein wundervolles Werkzeug, das geeignet ist, große Datenmengen ganz nach Belieben zu klassifizieren. Wenn ich einem Verfahren blind vertrauen muss, weil ich sie nicht verstehe, dann entsteht ein Problem. Korrelation und Kausalität können leicht verwechselt werden.

Lernende Maschinen verhalten sich in einer Beziehung ziemlich ähnlich wie Schulkinder: Wird es kompliziert, tendieren sie dazu, auswendig zu lernen. Experten sprechen salopp vom overfitting.

Dummerweise ist es weder bei Menschen noch beim Deep Learning einfach, das overfitting zu erkennen. Beispiel? Gern!

Nachts sind alle Panzer grau.

Ein Geheimdienst klassifiziert Panzer nach Freund und Feind. Während sowohl Trainings- als auch Testdaten problemlos erkannt werden, funktioniert der Einsatz im Feld überhaupt nicht. Warum? Weil die feindlichen Waffensysteme bei schlechtem Wetter aufgenommen wurden, denn das ermöglichte den Fotografen eine einfachere Tarnung. Die KI hat also einfach das Wetter statt den Panzertypus erkannt.

Regel 2: Sorgen Sie dafür, dass einerseits genügend viele Daten vorhanden sind und andererseits systematische Fehler unterbunden werden. (Ja, das ist nicht einfach.)

Scheinkorrelationen bringen nur Scheinerfolge

Ein weiteres hässliches Gesicht lernender Maschinen sind Scheinkorrelationen (spurious relations). Lernende Maschinen haben ein Talent dafür, jede Korrelation zu entdecken. Egal ob der Zusammenhang kausal (also logisch erklärbar ist, oder nicht). Der Klassiker:

Bringen Störche Babys? Auf dem Land ist die Geburtenrate höher als in der Stadt. Auf dem Land gibt es mehr Störche. Hohe Geburtenrate und Storchpopulationsdichte sind also korreliert. Die Entscheidungen, Störche anzusiedeln, um die Geburtenrate zu steigern, ist jedoch nicht unbedingt erfolgsversprechend.

Nutzt man Deep Learning als Blackbox, so werden viele Zusammenhänge entdeckt, die zuvor unbekannt waren. Wenn keine Kompetenz im Unternehmen vorhanden ist, spurious relations zu identifizieren, werden Entscheidungen schnell auf ziemlich wackelige Füße gestellt, obwohl man eigentlich das genaue Gegenteil beabsichtigt.

Regel 3: Selbst hochdekorierte Datenspezialisten sind ohne das Wissen der Fachexperten meist nicht in der Lage, Scheinkorrelationen und Kausalität voneinander zu trennen. Teamwork ist Pflicht.

Viel hilft viel? Datenqualität vs. Quantität

60% des Internets werden durch Daten sammelnde Bots verstopft. Je bigger, desto data. Doch mehr Daten machen die Situation oft nicht einfacher! Stellen wir uns vor, wir suchen sprichwörtlich eine Nadel im Heuhaufen. Weil wir sie nicht finden, bestellen wir einfach noch mehr Heu…

Daten wird durchweg mehr Wert beigemessen, als sie besitzen. Die 15-Cent-Regelbesagt, dass ein Gigabyte Daten durchschnittlich nicht mehr als 0,15 EUR wert ist. Die Verarbeitung, insbesondere Deep Learning, kostet jedoch sehr viel Zeit und Energie. Sicher – je weiter sich Prozessoren entwickeln, umso unsinniger wird es, Kapazitäten zu betrachten. Doch ohne einen HADOOP Cluster für die Datenhaltung und einen ganzen Park an Grafikkarten macht Deep Learning heute einfach keinen Spaß.

Regel 4: Smartes Datenmanagement ist eine eigene, nicht zu unterschätzende, Kompetenz. Nicht das Speichern, sondern das Verarbeiten ist teuer.

Bullshit in – Bullshit out

Beim Einsatz von Deep Learning müssen an Datensätze die zu erlernenden Ziele als ein Labelangebunden werden. Kunde A ist freundlich, Kunde B nicht. These: ein unbekannter Kunde, der sich in allen Punkten wie A verhält ist ebenfalls freundlich.

Einmal abgesehen davon, dass wir wahrscheinlich eine Scheinkorrelation entdecken … woran mache wollen wir festmachen, dass der Kunde A wirklich freundlich war? Das Labeln für maschinelles Lernen ist zudem oft eine stupide, langweilige und deshalb fehleranfällige Arbeit. Wird sie ausgelagert, zum Beispiel an MTurk können Klickbetrug oder Langeweile die Arbeitsergebnisse noch stärker verfälschen als wenn das Labeln im eigenen Unternehmen statt findet.

Labeln ist eine extrem wichtige Arbeit. Sie wirkt wenig anspruchsvoll und Clickworker gelten als das “Lumpenproletariat der Neuzeit“. Die Arbeit ist billig, weil sie scheinbar jeder verrichten kann. Fehler haben aber massive Auswirkungen auf die Korrektheit der Lernverfahren und verursachen Kosten beim Lernen und hohe Opportunitätskostendurch eine nicht optimal trainierte künstliche Intelligenz.

Regel 5: Qualitätsmanagement beim Labeln ist genauso wichtig wie Erfolgskontrolle beim Lernverfahren. Wer das Labeling nicht im Griff hat, braucht gar nicht zu starten.

(Maschinelles) Lernen macht Spaß!

Wenn die fünf Regeln beachtet werden, dann bringt Deep Learning nicht nur neue Erkenntnisse, sondern auch die gewünschten produktiven Ergebnisse. Vorhersagen werden präziser, Prozesse besser, Kosten können gesenkt, Umsätze in vielen Fällen gesteigert werden.


Dieser Blogbeitrag wurde von Dr. Ingo Dahm verfasst und auch auf LinkedIn veröffentlicht.

Ingo is an entrepreneur with a track record in Innovation & Digitization area. Business Development by heart with love for project and product management. Unique set of international and cross-disciplinary expert knowledge ranging from change-management to the implementation of major disruptive development projects. Several years of experience as member of advisory councils and non-executive boards. Rich network that bridges international academic and business world.