|
09.04.98
Sammlerfleiß bei Projekt an Alma mater Lipsiensis
Digitale Wortglauberei läßt Informatiker nicht ruhen
Leipzig. Informatiker der Uni Leipzig gehen seit dreieinhalb Jahren
einem ungewöhnlichen Metier nach: sie sammeln Wörter. Über
vier Millionen haben sie schon zusammen, darunter so spezielle wie
"Mausbewegungseinheit" und "Wortabgang". Die Experten arbeiten am
Projekt Deutscher Wortschatz. Das Ziel ist ehrgeizig: die
deutsche Sprache soll so umfassend wie möglich auf Festplatte
gespeichert werden. Irgendwann soll diese Datengrundlage dann zum
Beispiel für Übersetzungsprogramme oder Internet-Suchmaschinen
verwendet werden. Bis dahin werden allerdings vermutlich noch Jahre
vergehen.
Denn einstweilen sammeln die Forscher alles, was ihnen an Texten
unterkommt. Das Problem dabei ist, daß auf diese Weise auch etliche
falsch geschriebene Wörter mit aufgenommen werden und mühsam
wieder aus dem Speicher entfernt werden müssen, sagt Uwe
Quasthoff, Dozent am Institut für Informatik. Mit Studentenhilfe
arbeitet er gerade an einem Verfahren zum Aussortieren potentieller
Fehlerkandidaten. Von Hand wäre das gar nicht mehr möglich.
"Würden wir alle Einträge ausdrucken, müßten wir mehr
als 30000 eng beschriebene DIN-A4-Seiten durchforsten", umreißt
Quasthoff das Problem. Es geht letztlich vor allem um Tippfehler.
Für zusätzliches Durcheinander sorgten die Vorschläge
für die neue Rechtschreibung.
Tippfehler ergaben sich auch durch die Präsentation im Internet.
Seit kurzem können übers Netz nicht nur gesammelte Wörter
unter der Adresse
http://wortschatz.uni-leipzig.de
auf den heimischen Bildschirm geholt werden. Die Homepages sind auch
interaktiv nutzbar. Effekt: User können selbst neue Worte
eintragen. Das ist gewollt, aber eben auch mit falschen Schreibweisen
verbunden.
Nach wie vor können die Wissenschaftler von Texten nicht genug
bekommen. Zu Beginn des Projekts schrieben sie noch Verlage an,
um kostenlose Ausgaben von Büchern und Fachzeitschriften auf
CD-Rom zu erhalten. Mittlerweile schicken sie interessierten
Firmen und Privatleuten eine ebenfalls kostenlose CD-Rom zu,
auf der ein Teil der Wörter steht. Wer den Wissenschaftlern
eigene Texte zur Auswertung übergibt, muß dies auf CD-Rom
oder Diskette tun.
Yvonne Preß
|