25. Oktober 2018
#explore ist ein Onlinemagazin der TÜV NORD GROUP. Ein sechsköpfiges Team beschäftigt sich hier mit den Themen Digitalisierung, Mobilität, Virtual Reality, Industrie 4.0, Sicherheitsprüfung, Innovation, Vernetzung, Risikoanalyse, Qualitätssicherung, künstliche Intelligenz, IT. In vier Rubriken sind bislang 102 Artikel in englischer und deutscher Sprache erschienen. Zu den meistgelesenen Artikeln zählen „Was ist der Unterschied zwischen Safety und Security“, „Im Safaripark geht Sicherheit vor“ und „Reichweite und Alltagstauglichkeit von Elektroautos haben sich deutlich verbessert“. Das Glossar erklärt bislang 34 Begriffe: von A wie Augmented Reality bis Z wie Zugang. #explore ist nun seit 1.051.200 Minuten online. Und wird nun zwei Jahre alt. Herzlichen Glückwunsch.
Diesen Geburtstagsgruß haben wir nicht selbst verfasst. Geschrieben hat ihn für uns ein Computer. Genauer gesagt ein Programm zur automatischen Textgenerierung. Solche Systeme kommen mittlerweile immer häufiger zum Einsatz: Die amerikanische Nachrichtenagentur AP etwa setzt eine Software ein, die pro Quartal rund 4.000 standardisierte Sport- und Finanzberichte erzeugt. FOCUS Online veröffentlicht seit zwei Jahren täglich automatisch generierte Wetternachrichten für alle größeren Städte und Regionen in Deutschland. Seit Mai 2018 versorgen die Maschinen das Newsportal auch mit Finanznachrichten. Und die Stuttgarter Zeitung sowie die Stuttgarter Nachrichten lassen täglich einen Feinstaubradar automatisch erstellen.
„Faktenbasierte Routinetexte“, das sind die Bereiche, in denen die Maschinen mit menschlichen Textern mithalten können – und sie in Sachen Tempo hoffnungslos überflügeln, erklärt Sebastian Golly, Leiter Textgenerierung bei der Berliner Firma Retresco. Texte also, deren Aussagen auf einer großen Zahl von Daten basieren und die sich in festen Formen und Strukturen bewegen. Wie eben Sportnachrichten oder Wetterberichte. Aber auch Produktbeschreibungen oder Immobilienexposés für Onlineportale.
Abertausende Spielberichte an einem Wochenende
Dabei sollen die Maschinen menschliche Journalisten oder Texter nicht ersetzen, sondern sie vielmehr bei Routineaufgaben entlasten. Außerdem sollen sie den Redaktionen und Verlagen dabei helfen, ihr Angebot ohne hohe Zusatzkosten zu erweitern und auf diese Weise neue Zielgruppen anzusprechen. So verfassen die Maschinen etwa auch Berichte zu Fußballspielen aus der dritten bis sechsten Liga, wofür Redaktionen bislang keine Kapazitäten hatten. „Für die Maschine ist es kein Problem, 70.000 Spiele an einem Wochenende zu betexten und auch etwa die Jugend-Ligen abzudecken, für die sich vielleicht nur einige Hundert Leute interessieren“, berichtet Golly. Einen individuelleren Zuschnitt auf den einzelnen Leser soll die automatische Textgenerierung jedoch ebenfalls ermöglichen: Der Börsenbericht wird in dem Moment generiert, wenn der Nutzer die Website aufruft – basierend auf den aktuellen Daten und den Interessen des Nutzers.
„Für die Maschine ist es kein Problem, 70.000 Spiele an einem Wochenende zu betexten und auch etwa die Jugend-Ligen abzudecken, für die sich vielleicht nur einige Hundert Leute interessieren.“
Dabei sind die Schreibroboter keine Wundermaschinen, in die man ein paar Daten einfüttert und die dann automatisch einen perfekten Text ausspucken. Damit sie wissen, worauf es etwa bei einem Fußballbericht ankommt, müssen sie erst einmal trainiert werden. Ein Weg führt dabei über Machine-Learning: „Gibt es im Vorfeld eine große Sammlung an Texten und Daten, auf denen diese Texte beruhen, dann können wir das System durch einen automatisierten Lernmechanismus Formulierungen lernen lassen, die zu bestimmten Datenkonstellationen passen“, erläutert Computerlinguist Golly. Wenn für eine Textsorte noch keine zahlreichen Beispieltexte und die damit verbundenen Daten vorliegen, ist zunächst Handarbeit gefragt. Dazu arbeiten die Computerlinguisten und Entwickler von Retresco mit Sportjournalisten oder Meteorologen zusammen. „Gemeinsam mit diesen Experten bringen meine Kollegen dem System dann Formulierungen bei und definieren Bedingungen, wann diese Formulierungen angemessen sind“, erklärt Golly.
Journalistenschule für die Maschine
Handarbeit war auch bei unserem #explore-Geburtstagstext nötig. Zunächst haben wir die Daten, die im Text vorkommen sollten, in einer Excel-Tabelle gesammelt und in ein Textsystem von Retresco hochgeladen. Danach haben wir erst einmal selbst getextet. Formulierten Aussagesätze und sagten dem System, an welcher Stelle es auf welche Daten zugreifen sollte, um sie in den Satz einzusetzen. Aussagen konnten dabei auch kausal miteinander verbunden werden. Zusätzlich konnten wir Varianten der Sätze anlegen und Synonyme für einzelne Begriffe festlegen. Dann haben wir aufs Knöpfchen geklickt, und der Text wurde generiert. Natürlich klingt er vor allem so, wie wir ihn vorher aufgeschrieben haben. Denn unser kleiner Test tut dem System ein wenig unrecht. Schließlich ist die automatische Textgenerierung ja gerade nicht darauf ausgelegt, einen einzelnen originellen Text zu verfassen. Stattdessen soll sie auf der Basis von Daten und vorher festgelegten Textbausteinen zu wiederkehrenden Ereignissen wie Fußballspielen variantenreiche, grammatikalisch korrekte und gut lesbare Texte hervorbringen.
Damit die Maschinen aber überhaupt wissen, was sie wann zu sagen haben, brauchen sie menschliche Schützenhilfe. Die Herausforderung für die Computerlinguisten und Entwickler bei Retresco: Sportjournalisten haben ein Gefühl dafür, wann welche Formulierung passt. „Um es der Maschine beibringen zu können, müssen wir dieses Gefühl formalisieren und in konkrete Regeln übersetzen“, erzählt Golly. Geht aus den Daten etwa hervor, dass ein Tor aus der Distanz geschossen wurde, kann das System die Formulierung verwenden, dass Spieler XY „den Ball zwischen die Pfosten hämmerte“. „Und wenn wir wissen, dass der Spieler kurz zuvor eingewechselt wurde, können wir ihn als Joker bezeichnen“, ergänzt Sebastian Golly. Fehlen solche detaillierteren Daten, greift die Textmaschine entsprechend auf neutralere Formulierungen zurück.
© iStockDie erste „Robotermeldung“ hat die Los Angeles Times 2014 veröffentlicht. Der computergenerierte Text informierte über ein kleines Erdbeben.
Textrobotern das Sehen beibringen
Bunte Formulierungen können die Roboterjournalisten also bereits verwenden. Sinnliche Wahrnehmungen bleiben ihnen bislang jedoch verschlossen: Hier ist noch immer ein menschliches Auge vonnöten. „Wir generieren etwa live Immobilienexposés für Portale wie ImmoScout – und da sind die Fakten zu dieser Immobilie schön beschrieben und aufgeführt. Aber Dinge, die sich nicht aus den Daten ableiten lassen, wie etwa die hübsche Backsteinfassade, ergänzt dann etwa der menschliche Inserent“, erklärt Golly. Zukünftig sollen die Maschinen auch zunehmend sehen lernen. Oder besser gesagt Daten aus Fotos und Videos ableiten. Daran arbeiten die Experten von Retresco in einem Forschungsprojekt. „Wenn wir Produktbeschreibungen etwa für Schuhe generieren, stützen wir uns auf Standard-Daten wie Farbe oder Typ des Schuhs. Wenn in diesen Daten etwa die Absatzhöhe noch nicht enthalten ist, kann man diese dann aus den Bildern ableiten“, so Golly.
Meinung bleibt Menschensache
Emotionale oder hintersinnige Beschreibungen von Orten oder Situationen, wie sie etwa in Reportagen, Porträts oder in der Literatur gefragt sind, wird man aber auch dann nicht von den Maschinen erwarten können. „Künstliche Intelligenz ist die Perfektionierung des In-the-box-Denkens. Sobald es out-of-the-box geht, wird es schwierig“, sagt Sebastian Golly. Sprich: Bei Routinetätigkeiten sind die Roboterjournalisten kaum zu schlagen, doch Kommentare, Meinung, Kreativität oder die Einordnung von Ereignissen in politische, wirtschaftliche oder sportliche Zusammenhänge zählen nicht zu ihren Kompetenzen. „Sobald man nicht nur beschreibt, was in der Welt passiert, sondern auch Ursachen dafür benennt, stoßen solche Systeme an ihre Grenzen“, stellt Golly fest. Warum die Aktie eines Unternehmens abgestürzt ist, können die Textmaschinen also ebenso wenig erkennen, wie sie die Bedeutung unvorhergesehener Vorkommnisse zu bewerten vermögen. Strittige Schiedsrichterentscheidungen oder die Verletzung eines zentralen Stammspielers, der nun beim anstehenden Pokalspiel ausfällt, werden in den Robotertexten nicht berücksichtigt. Auch zwischen nebensächlichen und zentralen Informationen zu gewichten gelingt den Maschinen bislang selten.
Bei den Lesern schneiden die Robotertexte dennoch bereits ziemlich gut ab, wie eine Studie der Ludwig-Maximilians-Universität (LMU) in München ermittelte. So attestierten die 986 Probanden den schriftlichen Beiträgen aus der Maschine eine besonders hohe Glaubwürdigkeit. Ein Ergebnis, das sich die Forscher mit der hohen Fakten- und Datendichte in den generierten Texten erklären.
„Wir müssen offenlegen, auf welcher Datengrundlage ein bestimmter Text generiert wurde und wie Aussagen aus den Daten abgeleitet werden.“
Fake News auf Knopfdruck?
Dabei sind Texte aus der Maschine nicht automatisch objektiv und neutral. „Es wäre technisch ohne Weiteres möglich, etwa Fußballtexte erstellen zu lassen, die die Heimmannschaft grundsätzlich in einem besseren Licht erscheinen lassen“, gibt Sebastian Golly zu bedenken. So könnte man die Maschine zum Beispiel grundsätzlich von einer „unverdienten Niederlage“ schreiben lassen. Wenn Robotertexte einerseits besonders glaubwürdig wirken, andererseits jedoch Ereignisse einseitig oder verzerrt wiedergeben können – öffnet das dann nicht auch dem Missbrauch Tür und Tor? Könnte man die Maschinen nicht als unermüdliche Fake-News-Generatoren benutzen, um tagtäglich Abertausende von Falschmeldungen in die Welt zu schicken? Um dieser Gefahr entgegenzuwirken, arbeiten Golly und seine Kollegen mit „AlgorithmWatch“ zusammen, einer Initiative, die sich für ethische und transparente Algorithmen einsetzt. Gemeinsam wollen sie Kriterien und Standards erarbeiten und „im besten Fall ein Label für gute automatische Generierung“, so Golly. Die Arbeitsweise der eigenen Algorithmen transparent zu machen sei dabei entscheidend: „Wir müssen offenlegen, auf welcher Datengrundlage ein bestimmter Text generiert wurde und wie Aussagen aus den Daten abgeleitet werden“, betont Golly. Damit wir zukünftig wissen, welchen Robotertextern wir vertrauen können.