IfI - In den Medien

Leipziger Volkszeitung

09.04.98

Sammlerfleiß bei Projekt an Alma mater Lipsiensis

Digitale Wortglauberei läßt Informatiker nicht ruhen

Leipzig. Informatiker der Uni Leipzig gehen seit dreieinhalb Jahren einem ungewöhnlichen Metier nach: sie sammeln Wörter. Über vier Millionen haben sie schon zusammen, darunter so spezielle wie "Mausbewegungseinheit" und "Wortabgang". Die Experten arbeiten am Projekt Deutscher Wortschatz. Das Ziel ist ehrgeizig: die deutsche Sprache soll so umfassend wie möglich auf Festplatte gespeichert werden. Irgendwann soll diese Datengrundlage dann zum Beispiel für Übersetzungsprogramme oder Internet-Suchmaschinen verwendet werden. Bis dahin werden allerdings vermutlich noch Jahre vergehen.
     Denn einstweilen sammeln die Forscher alles, was ihnen an Texten unterkommt. Das Problem dabei ist, daß auf diese Weise auch etliche falsch geschriebene Wörter mit aufgenommen werden und mühsam wieder aus dem Speicher entfernt werden müssen, sagt Uwe Quasthoff, Dozent am Institut für Informatik. Mit Studentenhilfe arbeitet er gerade an einem Verfahren zum Aussortieren potentieller Fehlerkandidaten. Von Hand wäre das gar nicht mehr möglich. "Würden wir alle Einträge ausdrucken, müßten wir mehr als 30000 eng beschriebene DIN-A4-Seiten durchforsten", umreißt Quasthoff das Problem. Es geht letztlich vor allem um Tippfehler. Für zusätzliches Durcheinander sorgten die Vorschläge für die neue Rechtschreibung.
     Tippfehler ergaben sich auch durch die Präsentation im Internet. Seit kurzem können übers Netz nicht nur gesammelte Wörter unter der Adresse http://wortschatz.uni-leipzig.de auf den heimischen Bildschirm geholt werden. Die Homepages sind auch interaktiv nutzbar. Effekt: User können selbst neue Worte eintragen. Das ist gewollt, aber eben auch mit falschen Schreibweisen verbunden.
     Nach wie vor können die Wissenschaftler von Texten nicht genug bekommen. Zu Beginn des Projekts schrieben sie noch Verlage an, um kostenlose Ausgaben von Büchern und Fachzeitschriften auf CD-Rom zu erhalten. Mittlerweile schicken sie interessierten Firmen und Privatleuten eine ebenfalls kostenlose CD-Rom zu, auf der ein Teil der Wörter steht. Wer den Wissenschaftlern eigene Texte zur Auswertung übergibt, muß dies auf CD-Rom oder Diskette tun.

Yvonne Preß


HTML-Umsetzung: Andreas Zerbst 03.12.99