Natu­ral Lan­guage Pro­ces­sing (NLP) beschreibt das Feld der Com­pu­ter­wis­sen­schaf­ten, wel­ches sich mit der Inter­ak­tion zwi­schen Com­pu­ter­pro­gram­men und mensch­li­cher Spra­che beschäf­tigt. Durch die aktu­el­len Ent­wick­lun­gen in den Berei­chen der künst­li­chen Intel­li­genz und spe­zi­ell des maschi­nel­len Ler­nens in jün­ge­rer Zeit hat die auto­ma­ti­sierte Ver­ar­bei­tung von Text- und Sprach­da­ten bereits Ein­zug in ver­schie­dene Unter­neh­mens­bran­chen gefun­den. So wer­den in vie­len Online Kun­den­dienst­por­ta­len soge­nannte Cus­to­mer Chat­bots ein­ge­setzt, um schnel­len und effi­zi­en­ten Sup­port für End­nut­zer bereit­zu­stel­len. Vir­tu­elle digi­tale Assis­ten­ten sind bereits heute ein Bestand­teil des All­tags­le­bens vie­ler Men­schen, mit vor­aus­sicht­lich 1,8 Mil­li­ar­den Nut­zern welt­weit und einem geschätz­ten Gesamt­markt von 15,79 Mil­li­ar­den USD. Wei­ter­hin wer­den NLP Tech­no­lo­gien im HR-Bereich ein­ge­setzt, sowohl zur auto­ma­ti­schen Vor­auswahl poten­ti­el­ler Kan­di­da­ten als auch für auto­ma­ti­sierte Tele­fon­in­ter­views mit künst­li­chen Intel­li­gen­zen. Wel­che aktu­el­len Trends brachte das Jahr 2018 mit sich und wie sieht die Zukunft des NLP aus? Die­ser Arti­kel dient als Über­sicht in einem Feld, das einer rasan­ten Ent­wick­lung unterliegt.

Hin­ter­gründe der Text- und Sprachdatenverarbeitung

Die ursprüng­li­che Idee zur Kom­mu­ni­ka­tion mit Com­pu­ter­pro­gram­men über mensch­li­che Spra­che ent­stand bereits in den 1950er Jah­ren in Alan Turings Ver­öf­fent­li­chung „Intel­li­gence“. Über viele Jahre blieb die Tech­no­lo­gie zur Pro­zes­sie­rung von mensch­li­cher Spra­che und der auto­ma­ti­sier­ten Gene­rie­rung von pas­sen­den Ant­wor­ten jedoch hin­ter den Erwar­tun­gen zurück. Erst mit dem Auf­kom­men von Algo­rith­men zum maschi­nel­len Ler­nen in den spä­ten 1980er Jah­ren und dem spä­te­ren Wech­sel von har­ten Regeln und Ent­schei­dungs­bäu­men zu sta­tis­ti­schen Ver­fah­ren stieg die Ver­läss­lich­keit der ent­wi­ckel­ten Modelle aus­rei­chend an. Der seit eini­gen Jah­ren vor­lie­gende ver­stärkte Ein­satz von neu­ro­na­len Netz­wer­ken und Deep Lear­ning hat das Fun­da­ment für moder­nes NLP gelegt, bei­spiels­weise mit Goo­gles word2vec Wort­ein­bet­tungs­mo­dell 2013.

Die Her­aus­for­de­run­gen bei der auto­ma­ti­sier­ten Ver­ar­bei­tung von Tex­ten und beson­ders mensch­li­cher Spra­che stel­len auch moderne Tech­no­lo­gien noch auf die Probe. Gespro­chene Spra­che ist äußerst kom­plex. Men­schen ten­die­ren dazu bestimmte Wör­ter aus­zu­las­sen und die Bedeu­tung des Gespro­che­nen vom Kon­text abhän­gig zu machen. Men­schen ela­bo­rie­ren und erzeu­gen einen Über­fluss an, teil­weise für die Bedeu­tung des gespro­che­nen unnö­tige, Daten. Men­schen machen Feh­ler und kor­ri­gie­ren sich wäh­rend sie spre­chen. Men­schen spre­chen unter­schied­lich laut, deut­lich und schnell, teil­weise kön­nen diese Para­me­ter sogar wäh­rend eines ein­zi­gen Sat­zes vari­ie­ren. Men­schen drü­cken mit der Art ihrer Spra­che Emo­tio­nen und Inten­tio­nen aus, sowohl durch Stimm­lage als auch durch ihre Aus­drucks­weise und ihren Satz­bau. Die Bedeu­tung von Aus­sa­gen kann auf­grund von unter­schied­li­chen kul­tu­rel­len Hin­ter­grün­den oder sprach­li­chen Fer­tig­kei­ten stark vari­ie­ren. Die Qua­li­tät von Sprach­auf­nah­men kann ver­zerrt sein, sei es durch Hin­ter­grund­ge­räu­sche oder geringe Auf­nah­me­qua­li­tät. All diese Aspekte müs­sen von State‑of‑the‑Art NLP Model­len berück­sich­tigt wer­den. Zusätz­lich dazu ist das Trai­nie­ren der ent­spre­chen­den Modelle mit erheb­li­chem Kos­ten­auf­wand ver­bun­den, da initiale Trai­nings­da­ten­sätze erstellt und die not­wen­di­gen Hard­ware­an­for­de­run­gen (in Form von leis­tungs­star­ken GPUs für das Trai­ning) erfüllt wer­den müssen.

Jüngste Ent­wick­lun­gen im NLP

Das Jahr 2018 bot einige auf­re­gende Ent­wick­lun­gen im Hin­blick auf diese Her­aus­for­de­run­gen. Ver­schie­dene Inno­va­tio­nen im Bereich der soge­nann­ten vor­trai­nier­ten Modelle sorg­ten teil­weise für gro­ßes Auf­se­hen. Der große Vor­teil bei der Ver­wen­dung vor­trai­nier­ter Modelle ist, dass die initia­len struk­tu­rel­len Anfor­de­run­gen (Daten­sätze und Hard­ware für das Trai­ning) zum Teil ent­fal­len. Das Anwen­den sol­cher Modelle auf Daten­sätze, für wel­che sie nicht expli­zit trai­niert wur­den, bezeich­net man als Trans­fer Lear­ning. Hier­bei wird ledig­lich eine letzte Fein­ab­stim­mung des Modells vor­ge­nom­men. Die­ses Kon­zept wurde bereits vor­her in den Berei­chen des maschi­nel­len Sehens und der Bild­ver­ar­bei­tung (bei­spiels­weise durch das Mask R‑CNN Frame­work), sowie der Robo­tik (Ope­nAIs Dota2 Bots) mit gro­ßem Erfolg eingesetzt.

Ratingverfahren und logistische Regression Bild1
Abbil­dung 1 Das Grund­prin­zip von Trans­fer Lear­ning: Gut trai­nierte Modelle in kür­ze­rer Zeit, trotz klei­ner Datenbasis.

Zu Beginn des Jah­res ver­öf­fent­lichte Ope­nAI das Gene­ra­tive Pre-trai­ned Trans­for­mer (GPT) Modell, wel­ches zunächst durch unüber­wach­tes Ler­nen vor­trai­niert und anschlie­ßend über­wacht auf ent­spre­chende NLP Pro­bleme fein­ab­ge­stimmt wurde. Dadurch wur­den die nöti­gen Trai­nings­zei­ten für die ver­schie­de­nen Pro­bleme erheb­lich reduziert.

Das Uni­ver­sal Lan­guage Model Fine-Tuning (ULM­FiT) Frame­work war eben­falls eines der Vor­rei­ter des ver­gan­ge­nen Jah­res und ermög­licht es dem Nut­zer via Trans­fer Lear­ning belie­bige NLP Modelle in ver­kürz­ter Zeit zu trainieren.

Goo­gles Bidi­rec­tional Enco­der Repre­sen­ta­ti­ons from Trans­for­mers (BERT) baute gegen Ende 2018 auf dem GPT Modell von Ope­nAI auf, indem Bidi­rek­tio­na­li­tät in das neu­ro­nale Netz­werk ein­ge­führt wurde. Dabei wer­den ein­zel­nen Neu­ro­nen nicht aus­schließ­lich Infor­ma­tio­nen aus frü­he­ren Zeit­schrit­ten, son­dern auch aus spä­te­ren Zeit­schrit­ten zur Ver­fü­gung gestellt. Durch die­ses Ver­fah­ren gelang es, ver­gleich­bare Modelle in vie­len Sprach­da­ten Bench­marks, wie bei­spiels­weise dem SQuAD v1.1 ques­tion ans­we­ring test F1, mit hohen Genau­ig­kei­ten zu übertreffen.

Ein wei­te­res NLP Modell, wel­ches bidi­rek­tio­nale neu­ro­nale Netz­werke ver­wen­det, ist das Embed­dings from Lan­guage Models (ELMo) Frame­work. ELMo setzt dabei soge­nannte bidi­rek­tio­nale Long Short-Term Memory Netz­werke ein, um Wort­ein­bet­tungs­in­for­ma­tio­nen zu erlan­gen mit denen der Kon­text der ana­ly­sier­ten Text­pas­sa­gen erfasst wer­den kann.

Wie-Maschinen-mit-Menschen-kommunizieren-–-Aktuelle-Trends-im-Natural-Language-Processing-Bild2
Abbil­dung 2 Uni­di­rek­tio­nale Recur­rent Neu­ral Net­works (RNNs) vs. Bidi­rek­tio­nale RNNs. Die ein­zel­nen hid­den lay­ers (H) wer­den durch hid­den for­ward (F) und back­ward (B) lay­ers ersetzt, um auch Infor­ma­ti­ons­fluss in nega­tive Zeit­rich­tung zuzulassen.

Einen Mei­len­stein setzte Google mit der Vor­stel­lung von Google Duplex auf der Google I/O 2018. Eine Kom­bi­na­tion aus Jah­ren der For­schung in den Berei­chen NLP, Deep Lear­ning und Text-zu-Spra­che kul­mi­nierte in einer Tech­no­lo­gie, wel­che in der Lage ist echte Gesprä­che am Tele­fon zu emu­lie­ren. Durch Inkor­po­ra­tion in den vir­tu­el­len Google Assis­ten­ten soll Google Duplex in Zukunft in der Lage sein tele­fo­nisch Ter­min­ver­ein­ba­run­gen und Reser­vie­run­gen für seine Nut­zer durch­zu­füh­ren. Ein hoher Grad an Rea­lis­mus wird erreicht durch die Ver­wen­dung von sprach­li­chen Unste­tig­kei­ten und natür­li­chen Ver­zö­ge­run­gen wäh­rend des Spre­chens und beim Antworten.

Nicht ver­ges­sen werde sollte an die­ser Stelle PyText, ein vor­trai­nier­tes open-source Deep Lear­ning NLP Frame­work wel­ches Ende 2018 von Face­book ver­öf­fent­licht wurde. Die­ser letzte Fall ist ein exzel­len­tes Bei­spiel für den Ein­satz von NLP Model­len in ech­ten Unter­neh­mens­pro­zes­sen. PyText wird von Face­book selbst seit län­ge­rer Zeit erfolg­reich ein­ge­setzt, um Nut­zern für sie rele­van­tere Inhalte zu liefern.

Aus­blick

Auf­grund der Vola­ti­li­tät von com­pu­ter­wis­sen­schaft­li­chen Fel­dern und tech­no­lo­gi­schen Ent­wick­lun­gen ist es sehr schwer Ein­schät­zun­gen über den zukünf­ti­gen Ver­lauf des Natu­ral Lan­guage Pro­ces­sing abzu­ge­ben. Der aktu­elle Trend bewegt sich zuneh­mend in Rich­tung vor­trai­nierte Modelle, wel­che ledig­lich noch für ihren jewei­li­gen End­nut­zen fein­ab­ge­stimmt wer­den müs­sen. Das damit ver­bun­dene Kon­zept des Trans­fer Lear­ning wird sich dabei vor­aus­sicht­lich auf wei­tere Berei­che des maschi­nel­len Ler­nens aus­wei­ten. Goo­gles Deep­Mind hat bereits Ende 2017 bekannt­ge­ge­ben, dass aktiv an der Mög­lich­keit gear­bei­tet wird die AlphaGo Zero Tech­no­lo­gie auf wei­tere Teil­be­rei­che des maschi­nel­len Ler­nens aus­zu­wei­ten. Mög­lich ist auch die Kom­bi­na­tion ver­schie­de­ner vor­trai­nier­ter Modelle, um bestimmte Schwä­chen ein­zel­ner Modelle aus­zu­glei­chen. Sicher ist, dass Natu­ral Lan­guage Pro­ces­sing bereits heute ein wirk­sa­mes Werk­zeug für Unter­neh­men ver­schie­de­ner Berei­che gewor­den ist und zu erwar­ten ist, dass sich in nähe­rer Zukunft sein gewal­ti­ges Poten­tial wei­ter ent­fal­ten wird.