Natural Language Processing Trends

Juni 2022

Mai 2020

Technology

Inhaltsübersicht

Anwendung von Deep Learning, word embeddings und "Sprachverständnis"-Modellen, wie BERT, ELMo und GPT-2.

Bei Natural Language Processing (NLP) dreht sich alles um die Interaktion zwischen Mensch und Computer über (schriftliche oder mündliche) Sprache. Daher ist NLP ein interdisziplinäres Fachgebiet, in dem Ideen sowohl innerhalb der Informatik als auch in den Sprachwissenschaften entwickelt werden. Typische Anwendungen von NLP sind das Zusammenfassen von Dokumenten, das Übersetzen zwischen Sprachen, das Identifizieren von E-Mails als Spam, das Bestimmen von „benannten Entitäten” (wie Personen oder Organisationen), das Beurteilen, ob ein Tweet oder eine Nachricht ein positives oder negatives Gefühl beinhaltet (Sentimentanalyse) oder sogar das Führen eines Gesprächs mit einem Kunden (Chatbots). Während bei einigen dieser Anwendungen gute Fortschritte erzielt wurden, stellen andere weiterhin eine große Herausforderung dar.

Natural Language Processing NLP – wie alles begann

Historisch gesehen lassen sich erste Ideen bis in die 1950er Jahre zu Forschern wie Alan Turing zurückverfolgen. Die erste Welle der NLP-Systeme basierte hauptsächlich auf handgeschriebenen Regeln, wie komplexen regulären Ausdrücken oder konzeptionellen Ontologien. Um eine E-Mail beispielsweise als Spam zu identifizieren, würde man Regeln wie "wenn die Betreffzeile sowohl die Wörter *cash* als auch *garantiert* in beliebiger Reihenfolge und an beliebigem Ort enthält, ist die E-Mail Spam" schreiben. Aufgrund der Komplexität der natürlichen Sprachen war der Erfolg dieses Ansatzes eher begrenzt. In den 1980er Jahren war die Rechenleistung ausreichend gestiegen, um die Entwicklung erster maschineller Lernalgorithmen zu ermöglichen. Bayes'sche Klassifikatoren sind ein Beispiel für einen solchen klassischen maschinellen Lernalgorithmus. Bei einer großen Anzahl von E-Mails, die als Spam oder No-Spam vorkategorisiert sind, kann ein Bayes'sche Klassifikator trainiert werden, um zukünftige Spam-E-Mails (ähnlich zu einer, die er zuvor gesehen hat) mit hoher Wahrscheinlichkeit korrekt zu identifizieren. Auch bei anderen möglichen Anwendungen, wie der Zusammenfassung von Dokumenten, Chatbots für den Kundenservice oder der qualitativ hochwertigen Übersetzung von Dokumenten, wurden kleinere Fortschritte erzielt, jedoch erwiesen sich diese Probleme weiterhin als nur sehr schwer lösbar.

Deep Learning in Natural Language Processing NLP

Erst 30 Jahre später kam das Deep Learning auf. Während es die Grundidee der tiefen künstlichen neuronalen Netze schon seit vielen Jahren gab, waren erst jetzt genügend Rechenleistung und ausreichend große Datenmengen verfügbar, um diese Idee in der Praxis mit hoher Qualität umzusetzen. Darüber hinaus haben Forscher in diesem Bereich neuartige Konzepte, insbesondere im Bereich der Netzwerkarchitektur, eingebracht. Diese Kombination hat Deep Learning an die Spitze der Maschine Learning Techniken katapultiert.

Word Embeddings

Natürlich wurden tiefe neuronale Netze auch im NLP-Bereich eingesetzt. Viele Maschine Learning Algorithmen benötigen ihre Eingaben als Merkmalsvektor. Daher müssen Wörter und Dokumente typischerweise in diese Darstellung konvertiert (man sagt dazu: eingebettet) werden, oft mittels one-hot Encoding für Wörter oder tf-idf-Encoding für Dokumente. Diese Ansätze funktionieren einigermaßen gut, allerdings entfernen sie im Grunde die inhärente Bedeutung eines Wortes.
Man könnte fast sagen, dass diese Informationen aktiv vor dem Maschine Learning Verfahren, das den generierten Merkmalsvektor weiterverarbeitet, versteckt werden. Im Jahr 2013 wurde das auf Deep-Learning basierende Verfahren word2vec eingeführt, um Word Embeddings zu erstellen, die die semantische Bedeutung des Wortes erfassen. Ein bekanntes Beispiel ist: Wenn man mit dem Vektor für „König“ beginnt, den Vektor für „Mann“ subtrahiert und den Vektor für „Frau“ hinzufügt, erhält man einen Vektor, der sehr nahe an „Königin“ liegt. Bei einer Einbettung mittels one-hot-Encoding würden dieselben Operationen zu keinem interpretierbaren Ergebnis führen. Die Ähnlichkeiten zwischen den von word2vec erzeugten Vektoren können beispielsweise von einer Suchmaschine genutzt werden, um die Suche zu erweitern.
Wenn ein Benutzer nach "Hotel Mallorca" sucht, könnte die Suchmaschine erkennen, dass die Vektoren für „Hotel“ und „Finca“ sehr ähnlich sind und auch Fincas auf Mallorca anzeigen. Word2Vec hat die Forschung im Bereich Word Embeddings neu belebt, was beispielsweise zu GloVe oder fastText führte.

BERT, ELMo and GPT-2 Embeddings

Alle bisher erwähnten Embedding Algorithmen (und es gibt noch viele mehr) berechnen genau einen Merkmalsvektor pro Wort. Viele Wörter haben jedoch unterschiedliche Bedeutungen, je nachdem, in welchem Kontext sie verwendet werden. So bezieht sich beispielsweise das Wort "Schloss" auf ein Bauwerk in "Das Schloss liegt auf dem Hügel", hat aber eine gänzlich andere Bedeutung in "Der Dieb hat das Schloss der Eingangstür aufgebrochen". Word Embeddings, die aus neueren Algorithmen wie BERT extrahiert oder von ELMo (beide 2018 veröffentlicht) generiert wurden, sind in der Lage, diese Bedeutungsunterschiede desselben Wortes („Homonyme“) zu erfassen.
BERT ist eigentlich sogar viel mehr als ein Algorithmus zur Berechnung von Word Embeddings – er generiert ein universelles "Sprachverständnis"-Modell, das für viele Natural Language Processing (NLP)-Aufgaben verwendet werden kann. Bert, ELMo und GPT-2 (das Anfang 2019 veröffentlicht wurde) basieren auf einer Deep-Learning-Architektur namens Transformer (einer Verbesserung der bekannten Encode-Decoder-Architektur), die enorme Potentiale zu bieten scheint. Mehr über den Einsatz von BERT, ELMo und GPT-2 können sie in unserem Artikel "LAMBADA AI-Methode: Conversational Systems erschaffen".

Fazit

Während die NLP-Forschung einige Jahre stagniert hat, wurden seit 2013 enorme Fortschritte erzielt.

Forschungsergebnisse und praktische Anwendungen gewinnen seit 2017 bis heute rasant an Bedeutung und Aufmerksamkeit.

Sollte sich dieser Trend fortsetzen, sind in naher Zukunft große Sprünge zu erwarten, insbesondere bei anspruchsvollen Natural Language Processing Aufgaben.

Wollen Sie mehr sehen?