IfI - In den Medien

Sächsische Zeitung

18.11.97

"Bundeskanzlerin" und "Kartoffelschnee"

(dpa/ost). In den Computern der Leipziger Universität sind Wörter gespeichert wie "Bundeskanzlerin" oder "Kartoffelschnee". Die Informatiker der Abteilung Automatische Sprachverarbeitung buchten die Vokabeln unter dem Stichwort "seltsame Wortbildung" ab. Drei Millionen Wörter haben die Leipziger in ihren Computern inzwischen gesammelt. Im "Projekt Deutscher Wortschatz" wollen die Wissenschaftler die deutsche Sprache so komplett wie möglich erfassen. Die elektronische Sammlung soll nützlich werden für machinelle Übersetzungen, Rechtschreibhilfen und automatische Sprachverarbeitung. Die Leipziger sammeln, was kommt. Azsgewertet wird alles, was bereits auf CD-Rom erschienen und direkt vom Computer gelesen werden kann. Neue unbekannte Wörter speichert der Rechner zusammen mit einem Beispielsatz ab. Je ungewöhnlicher der Text ist, desto höher ist die Trefferquote. Vor kurzem haben es "Duckologie" und "Worterotiker" geschafft. Der Begriff "Kartoffelschnee" schlich sich aus einem Kochbuch ein, die Herkunft des "Schlittenscguhs" ist unbekannt. "Wörter sammeln, ist eigentlich nichts Neues", sagt Informatiker Uwe Quasthoff. "Es gibt viele andere Computerlexika, deren Einträge sind aber alle weit unter einer Million. Vom Umfang her sind wir einmalig in Deutschland".

Inzwischen gibt es eine CD-Rom mit allen Einträgen, die die Universität auf Anfrage kostenlos verschickt. Mit ihrer Hilfe soll das bislang schwache Gebiet der Fachvokabeln aufgestockt werden. Experten können ihre Texte mit einem Durchlaufprogramm prüfen und ihre Ergebnis an die Leipziger Universität schicken. Auch Mundart wie "goofen" (kaufen) und Lautschrift "üüüberhaupt" werden gern genommen. Rechtschreibfehler wie "selbstständig" haben ebenfalls eine Chance. Quasthoff: "Eines unser größten Probleme sind Tippfehler. Im Moment sind wir dabei, eine Software zu entwickeln, die solchen Fehlern auf die Spur kommt und diese ausmerzt."

Mit dem Projekt, so hofft Quasthoff, können schon in den nächsten Jahren ein Beitrag zur automatischen Übersetzung und zum akustischen Sprachverstehen geleistet werden. "Einen zeitlichen Horizont kann ich da nicht sehen", sagt der Wissenschaftler. "Denkbar wäre beispielsweise auch eine intelligente Zeitung, die dem Leser nur die für ihn interessanten Berichte anbietet und eine bequemere Nutzung des Internets."

Der deutsche Wortschatz umfaßt fünf bis acht Millionen Wörter. Mindestens fünf Millionen wollen die Leipziger sammeln. Das "Baumalphabet", der "Aaazzt" (Arzt) und die "P-Zone" sind schon im Computer. Quasthoff: "Zeitweise hat die Arbeit schon einen gewissen Unterhaltungswert. Traurig ist natürlich, daß wir bei dem ständig wachsenden Wortschatz wohl nie alle Wörter erwischen werden."


HTML-Umsetzung: Andreas Zerbst 03.12.99