Inhaltsverzeichnis nächster Punkt vorheriger Punkt

JAHRESBERICHT 1996

Forschungsvorhaben

2.1.2 Automatische Sprachverarbeitung

Univ.-Professor: Prof. Dr. G. Heyer
wiss. Mitarbeiter: Dr. U. Quasthoff; Dr. C. Wolff; M. Hupfer (DFG)
Programmiererin: R. Gabler
Sekretärin: R. Schildt

Electronic Publishing (Heyer, Quasthoff, Wolff)

Die Möglichkeit, Informationen nicht nur im traditionellen Medium Papier, sondern zunehmend auch im elektronischen Medium zu veröffentlichen und zu verteilen, hat ein neues Forschungsfeld geschaffen, das im Schnittpunkt zwischen Software Engineering, automatischer Sprachverarbeitung, Information Retrieval und Multimedia-Entwicklung liegt. Schwerpunktmäßig werden an der Problematik von Standards für elektronisches Publizieren, der Entwicklung und Evaluation von Software-Werkzeugen für elektronisches Publizieren sowie deren Verbesserung durch Verfahren der automatischen Sprachverarbeitung gearbeitet. Dabei erfolgt eine Zusammenarbeit mit Verlagen sowie dem Arbeitskreis elektronisches Publizieren des Börsenvereins des deutschen Buchhandels.

Im Sommersemester 1996 wurden die theoretisch orientierten Vorlesungen zum Elektronischen Publizieren um ein praxisnahes Seminar erweitert, indem erstmals eine multimediale Informations-CD über das Informatik-Studium und die Universität Leipzig erstellt wurde. Dabei wurde die Anwendung der verschiedensten Werkzeuge und Techniken bei Erstellen und Verwalten multimedialer Information praktisch erprobt. Als Ergebnis liegt eine CD-ROM vor, die erfolgreich zur Studienwerbung und zur allgemeinen Information genutzt wird.

Entwicklung einer Galerie als Referenzanwendung im Internet (Wolff)

Das Forschungsvorhaben behandelt die Gestaltung und Verwaltung komplexer WWW-Anwendungen am Beispiel einer interaktiven Internet-Galerie. Neben Aspekten der Mensch-Maschine-Interaktion und Software-Ergonomie steht die Datenverwaltung und -aktualisierung im Mittelpunkt. Das Projekt dient als Referenzanwendung für WWW-Projekte, da hier - schon bedingt durch den multimedialen Charakter der Daten - der jeweils aktuelle Stand der WWW-Technologie zum Einsatz kommt (HTML V.3, VRML etc.) und eine große Bandbreite funktionaler Anforderungen gegeben ist. Das Projekt wird in Zusammenarbeit mit dem Fachbereich Medienkunst der Hochschule für Graphik und Buchkunst Leipzig (M. Touma) durchgeführt.

Nachdem in der ersten Phase des Projekts (Nov. 1995 - Juli 1996) die Galerie "Ort ohne Raum" auf der Basis eines einheitlichen Interaktionsdesigns aufgebaut und mit Inhalten gefüllt werden konnte (vgl. Wolff & Touma 1996), stehen in der sich anschließenden 2. Phase Fragen der Datenverwaltung und Automatisierung von Arbeitsabläufen im Mittelpunkt. Dabei wird die zunächst manuell aufgebaute Struktur der Galerie (derzeit ein "Subnetz" im WWW mit ca. 1000 Dateien) auf eine datenbankbasierte Verwaltung umgestellt, um die bisher aufwendige Integration neuer Arbeiten zu vereinfachen. Parallel dazu werden laufend neue Arbeiten in die Galerie integriert.

Entwicklung von Navigationshilfen und Suchwerkzeugen für das Internet (Wolff)

Auf der Basis bereits verfügbarer Software sollen bei diesem Forschungsvorhaben die bestehenden Recherchewerkzeuge im Internet (im wesentlichen auf Vektorräumen basierende IR-Systeme wie Lycos oder InfoSeek) durch Zusatzkomponenten optimiert werden, die sowohl spezielle Anfrageprofile des Suchenden (Aspekt der Benutzermodellierung) als auch die Textstruktur recherchierter Dokumente (Aspekt automatische Textanalyse) berücksichtigen und so zu verbesserten Suchergebnissen führen.

Formale Semantik natürlicher Sprache (Heyer)

Aufbauend auf etablierten Verfahren der Referenzsemantik, insbesondere der Montague-Semantik, und unter Einbeziehung der Frame-Theorie werden unter Anwendung logisch-formaler Verfahren Computermodelle der Semantik der natürlichen Sprache entwickelt, welche für die automatische Extraktion semantischer Merkmale von Wörtern in ihrer jeweiligen Textumgebung geeignet sind. Ein solches Verfahren soll die klassischen wissens- und logikbasierten Modellierungsverfahren mit den im Kontext weiterer Forschungsvorhaben der Abteilung erstellten umfangreichen Sprachdatenkorpora zusammenführen. Um mit Hilfe statistischer bzw. korpus-basierter Verfahren sprachliches Wissen ableiten zu können, ist ein erheblicher Umfang der Korpora erforderlich. Die Arbeiten werden teilweise im Zusammenhang mit dem DFG-Projekt LAPT&DA durchgeführt.

Information Retrieval (Quasthoff, Wolff)

Im Bereich Information Retrieval finden im Bereich der Abteilung Automatische Sprachverarbeitung zwei unterschiedliche Vorhaben statt: Zum einen die Weiterentwicklung und Generalisierung eines lauffähigen Prototyps zum graphischen Retrieval in Faktendatenbanken (in Kooperation mit dem IZ Sozialwissenschaften, Bonn), zum anderen die Entwicklung einer Retrieval Shell, in der für (zunächst) kleinere Textkorpora unterschiedliche Retrievalverfahren implementiert und verglichen werden. Das System soll auch für die Lehre nutzbar gemacht werden. Ein erster Testlauf mit einem Korpus von Zeitungstexten und einem n-gram-basierten Matchverfahren für den Dokumentenvergleich hat bereits stattgefunden.

Korpusgestützte Lexikonerstellung und Terminologie-Extraktion (Heyer, Quasthoff)

Moderne computergestützte Verfahren zur Aufbereitung und Analyse großer maschinenlesbarer Textkorpora erlauben es, die im wesentlichen auf Intuition und Erfahrung beruhende traditionelle Lexikographie und Terminologiearbeit um effiziente Techniken einer teilweise automatisierten Lexikographie und Extraktion von Fachterminologie zu ergänzen. Gegenstand der Forschungsarbeiten sind die linguistischen, terminologiewissenschaftlichen und informations-theoretischen Grundlagen automatisch aus großen Texten extrahierter Lexika, die Entwicklung entsprechender Software-Werkzeuge sowie deren Erprobung in praktischen Anwendungen.

Das Projekt wurde durch das von der EU geförderte LRE-Projekt POINTER unterstützt. Darüber hinaus werden in Zusammenarbeit mit Verlagen und dem Fachsprachenzentrum der Universität Leipzig mehrere konkrete Anwendungsprojekte durchgeführt. Es erfolgt eine enge Zusammenarbeit mit dem DIT (Deutsches Institut für Terminologie).

Multimediale elektronische Bücher (Wolff)

Das Forschungsvorhaben befaßt sich mit der Konzeption und Implementierung multimedialer elektronischer Bücher sowie der Gestaltung ihrer Benutzeroberflächen. Im Mittelpunkt steht die Integration synchroner und asynchroner visueller Medien (Bild, Film, Animation). Dabei wird in Zusammenarbeit mit dem Teubner-Verlag Leipzig ein konkretes Anwendungsbeispiel eines solchen elektronischen multimedialen Buches entwickelt. Schwerpunkte des Vorhabens sind u.a. die Integration unterschiedlicher Medien sowie externer Funktionsbereiche (z.B. Computeralgebrasysteme sowie Suchmaschinen), Retrievalverfahren für multimediale Daten sowie die Entwicklung geeigneter Benutzerschnittstellen.

Projekt Deutscher Gesamtwortschatz (Heyer, Quasthoff)

Begleitend zu einem DFG-Projekt zur dynamischen Aktivierung domänenspezifischer Teillexika (Projekt LAPT & DA; Prof. Dr. Hausser, Erlangen; Prof. Dr. Heyer, Leipzig) wird ein umfassendes Korpus des deutschen Wortschatzes als Vollformenlexikon erstellt. Ausgehend von einer in den letzten Jahren aufgebauten Lexikondatenbank mit ca. 1,3 Mio. Einträgen wird eine Lexikon-CD erstellt, die an einen breiten Interessentenkreis zur Bearbeitung und Ergänzung verteilt wird. Diese Bearbeiten finden auf der CD-ROM Software zur Bearbeitung des Lexikons, mit der sie sowohl die bestehenden Daten sichten und korrigieren als auch aus elektronischen Texten automatischen neue Einträge generieren können. Die von den Bearbeitern eingehenden Listen neuer bzw. überarbeiteter Einträge werden am Institut in die zentrale Datenbank integriert. Grundidee des Vorhabens ist die Kombination aus Nutzung dezentralen Expertenwissens und zentraler Datenbankverwaltung.

Statistische Auswertung deutscher Textkorpora (Heyer)

Ziel ist die Erfassung von Lexikon- und Thesaurusinformationen mittels statistischer Verfahren. Diese Auswertungsmöglichkeiten haben sich neu ergeben, seit große Mengen deutscher Texte maschinenlesbar vorliegen. Die Auswertung ist rechen- und speicherintensiv, der Aufwand zur Verwaltung der anfallenden Daten groß. Ziel ist es, aus Texten automatisch grammatische und inhaltliche Information zu entnehmen und diese wiederverwendbar (z.B. für automatische Übersetzungssysteme oder Information Retrieval) aufzubereiten.

Seitenanfang
Inhaltsverzeichnis
2.1.3 Forschungsvorhaben: Computeralgebra
2.1.1 Forschungsvorhaben: Automaten und Formale Sprachen

HTML-Umsetzung: Andreas Zerbst