🏠 » Informatik Grundlagen » Informatik Bestandteile » Computerlinguistik

Computerlinguistik

Die Computerlinguistik beschäftigt sich mit Software, die automatisiert Sprache und Text analysieren und verarbeiten kann und die in vielen Lebensbereichen nützlich.

Jeder hat sicherlich schon einmal die Rechtschreib- und Grammatikkorrektur in Microsoft Word oder einem ähnlichen Textverarbeitungsprogramm genutzt oder mit dem Google-Übersetzer gearbeitet. Auch sprachgesteuerte Systeme wie Siri, Cortana oder Amazon Alexa erleichtern den Alltag ihrer Nutzer.

Die Grundlage für all diese Systeme ist die Computerlinguistik, ein Teilgebiet der Informatik, das Sprachwissenschaften mit technischen und mathematischen Themen verbindet.

Was ist Computerlinguistik?

Computerlinguistik, auch linguistische Datenverarbeitung genannt, erforscht die menschliche Sprache mit Hilfe von formalen Modellen und moderner Computertechnik.

Das ermöglicht Erkenntnisse über Laut-, Satz, und Bedeutungsstruktur und dient als Grundlage für text- und sprachverstehende Systeme.

Diese Systeme können allerlei sonst aufwändige Aufgaben automatisieren. Dazu gehören nicht nur die bereits erwähnten Grammatikprüfer oder Übersetzer, sondern auch Programme zum Hervorheben von Schlagworten, zur Anfertigung von Inhaltsverzeichnissen und zum Zusammenfassen eines Textes.

Neben der Computerlinguistik gibt es das Spezialgebiet der Internetlinguistik, das das menschliche Sprachverhalten speziell in Bezug auf das Internet betrachtet. Es werden beispielsweise Sprachentwicklungen, die nur durch neue Kommunikationswege möglich sind, untersucht und die Erkenntnisse für künftige Softwareentwicklungen verwendet.

Das Saarbrücker Pipelinemodell

Doch wie werden Sprache und Text eigentlich in ein für den Computer verständliches Modell überführt? Während der Analyse durchlaufen Sprach- und Textinformationen unterschiedliche Repräsentationsebenen, die als das Saarbrücker Pipelinemodell bezeichnet werden.

Die einzelnen Phasen des Saarbrücker Pipelinemodells werden sequentiell ausgeführt und steigen in ihrer Komplexität schrittweise an. Nicht jedes Verfahren der Computerlinguistik muss allerdings jede Phase der Pipeline durchlaufen:

Spracherkennung & Tokenisierung

Sprache kann entweder als Schallinformation oder bereits als Text, also als Buchstabenketten, vorliegen. Schallinformationen müssen in der optionalen ersten Phase, der Spracherkennung, in Textform umgewandelt werden. Anschließend werden die Buchstabenketten in Satzbausteine wie Wörter und Sätze segmentiert. Diesen Schritt bezeichnet man als Tokenisierung.

Morphologische, Syntaktische und Semantische Analyse

Mit den Segmenten finden bis zu drei Analysestufen statt: Die morphologische Analyse, in der grammatische Information aus den Segmenten extrahiert werden, die syntaktische Analyse, bei der die strukturelle Funktion der Wörter genauer betrachtet wird, und die semantische Analyse, die auf Basis der Syntax den Worten eine Bedeutung gibt. Insbesondere die semantische Analyse ist oft schwierig und benötigt mehrere Teilschritte.

Dialog- und Diskursanalyse

Am Schluss des Saarbrücker Pipelinemodells steht eine Dialog- und Diskursanalyse. Aufeinanderfolgende Sätze werden miteinander in Beziehung gebracht, beispielsweise als Frage-Antwort-, Aussage-Begründung oder Aussage-Einschränkung-Konstruktion.

Aktuelle Projekte und Forschungen der Computerlinguistik

Die Computerlinguistik findet in der modernen Technologie zahlreiche Anwendungen. Zu den bekanntesten zählen sicherlich Programme zur Textverarbeitung hinsichtlich Grammatik und Syntax.

Solche Programme müssen das Saarbrücker Pipelinemodell nur bis zu syntaktischen Analyse durchlaufen und sind damit verhältnismäßig simpel. Aufwändiger ist die Informationsextraktion bzw. das Text Mining, bei der relevante Informationen aus großen Datenmengen extrahiert werden, denn hier ist auch die semantische Analyse notwendig.

Doch die Computerlinguistik kann nicht nur zur Analyse und Verarbeitung bereits bestehender Sprache und Texte verwendet werden. Generische Texte wie Wegbeschreibungen und Wettervorhersagen können anhand einfacher Schemata selbstständig erzeugt werden.

Zuletzt beschäftigen viele aktuelle Forschungsfelder sich mit der Verarbeitung von gesprochener Sprache anstatt von Buchstabenketten. Das ist beispielsweise für Lesegeräte für Blinde, für Diktiergeräte oder für Dialogsysteme notwendig.

Letztere werden unter anderem bei telefonischen Auskunftsdiensten oder zur Sprachsteuerung technischer Geräte bereits heute verwendet. Allerdings ist die Technologie in vielerlei Hinsicht noch nicht ausgereift, sodass Computerlinguisten in diesen Forschungsprojekten besonders gefragt sind.

Weiterführende Artikel

Bitte bewerten (1 - 5):