Inhaltsverzeichnis nächster Punkt vorheriger Punkt

JAHRESBERICHT 1996

Forschungsvorhaben

2.1.4 Datenbanken

Univ.-Professor: Prof. Dr. E. Rahm
wiss. Mitarbeiter: Dr. D. Sosna; R. Müller (seit Juli 1996); Dr. H. Reichelt (bis März 1996); Th. Stöhr; H. Märtens (DFG / seit Dezember 1996)
Doktorandin: A. Beckmann (seit November 1996)
Programmierer: S. Jusek
Sekretärin: K. Beier

Parallele Datenbanksysteme (Rahm, Märtens, Stöhr)

Parallele DBS unterstützen neben Inter-Transaktions-Parallelität verschiedene Formen von Intra-Transaktions-Parallelität (Inter- und Intra-Operator-, Daten- und Pipeline-Parallelität). Algorithmen zur effizienten Unterstützung von Intra-Transaktions-Parallelität sind erforderlich, um für datenintensive und komplexe Queries kurze Antwortzeiten erreichen zu können, insbesondere für anspruchsvolle DB-Anwendungen (Ingenieursysteme, VLSI-Entwurf, Multimediasysteme etc.). Es sind dazu Verarbeitungskonzepte für künftige Parallele DBS zu entwickeln, welche durch massive Parallelisierung und dynamische Lastbalancierungsmaßnahmen die effektive Nutzung von "Super-Server-Systemen" zur DB-Verarbeitung gestatten. Super-Server bestehen aus Hunderten von schnellen Standardprozessoren, einer aggregierten Hauptspeicherkapazität im TB-Bereich, einem hochparallelen E/A-Subsystem (z.B. Disk-Arrays) sowie einem skalierbaren Hochgeschwindigkeitsnetz.

In diesem Sinne umfassen unsere Forschungsvorhaben die Entwicklung und Bewertung von Parallelisierungskonzepten für alternative Architekturen Paralleler DBS sowie Leistungsbetrachtungen von Algorithmen für die Bearbeitung komplexer Anfragen. Insbesondere bearbeiten wir den Einsatz dynamischer Lastbalancierungsverfahren, welche die Lastverteilung sowie Scheduling und Parallelisierung der Lasteinheiten in Abhängigkeit zu dem aktuellen Systemzustand vornehmen. Besonders kritisch ist der Einsatz solcher Verfahren für die Parallelverarbeitung komplexer Queries im Mehrbenutzerfall, wenn OLTP-Lasten und Queries gleichzeitig zu verarbeiten sind bzw. mehrere komplexe Anfragen gleichzeitig zur Bearbeitung anstehen. In diesen Fällen sollte u.a. der Parallelitätsgrad innerhalb der Queries sowie der Ausführungsort der Teilanfragen in Abhängigkeit zur aktuellen Auslastung kritischer Ressourcen (CPU, Hauptspeicher, Platten etc.) festgelegt werden.

Unsere Untersuchungen zur dynamischen Lastbalancierung erfolgen sowohl für Shared-Nothing- als auch für Shared-Disk-DBS. Ein hohes Potential zur dynamischen Lastbalancierung wird v.a. von der Shared-Disk-Architektur geboten, da durch die gemeinsame Plattenanbindung an alle Verarbeitungsrechner der Ausführungsort für Transaktionen und Teilanfragen nicht von vorneherein auf eine Teilmenge der Rechner beschränkt ist wie für Shared-Nothing oftmals der Fall. Weitere Arbeiten betreffen die Festlegung einer flexiblen Datenallokation, welche unterschiedliche Arten der Parallelverarbeitung zu unterstützen hat.

Zur Untersuchung des Leistungsverhaltens verschiedener Verfahren werden komplexe Simulationssysteme von Parallelen DBS entwickelt, deren umfangreiche Parametrisierungsmöglichkeiten es zulassen, verschiedenste Konfigurationen quantitativ zu bewerten: Ein- und Mehrrechnerfall, Single- und Multiuser-Betrieb, unterschiedliche Anfragetypen (Scans, Joins, ...), Inter- und Intra-Transaktions-Parallelität für einfache OLTP-Lasten, komplexe Queries und Mischlasten etc. Damit wurden u.a. verschiedene Heuristiken analysiert, die bei Multi-User-Betrieb CPU-, Hauptspeicher- bzw. Platten-Engpässe speziell bei den schwierig zu handhabenden Mix-Lasten dadurch vermeiden, indem Parallelitätsgrad sowie Ausführungsort dynamisch bestimmt werden. Weiterhin werden für Shared-Disk-DBS erweiterte Protokolle zur Synchronisation und Kohärenzkontrolle untersucht, welche zur Unterstützung einer parallelen Anfragebearbeitung geeignet sind.

Elektronische Bibliotheken (Rahm, Sosna, Beckmann)

Das Institut für Informatik ist unter Federführung des Lehrstuhls Datenbanken Pilotanwender im BMBF-Verbundprojekt MeDoc (Multimediale elektronische Dokumente). Ziel dieses Vorhabens ist die Konzeption, prototypische Entwicklung und Erprobung von volltextbasierten Informations- und Publikationsdiensten für die Informatik. Neben der Bereitstellung von elektronischen Volltexten von Büchern, Zeitschriften etc. erfolgt an der Univ. Leipzig die Evaluierung unterschiedlicher Werkzeuge und Benutzeroberflächen. Das Lehrbuch "Mehr-rechner-Datenbanksysteme" wurde für die Integration in die elektronische Bibliothek konvertiert und wird damit im WWW zugänglich gemacht. Einer der bundesweit sechs MeDoc-Server (der einzige in den neuen Ländern) wird an der Universität Leipzig betrieben.

Daneben befindet sich ein Informationssystem zur Recherche und Verwaltung wissenschaftlicher Literatur in Entwicklung, auf das über das WWW zugegriffen werden kann. Das System bietet u.a. eine komfortable Zugriffsmöglichkeit auf den Katalog der Bibliothekszweigstelle Informatik, ähnlich wie sie von anderen WWW-OPACs (Online Public Access Catalogs) unterstützt wird. Allerdings erfolgt die Datenverwaltung bei dem neu entwickelten System nicht über eine spezielle Dateiverwaltung, sondern über ein kommerziell verfügbares SQL-Datenbanksystem. Daneben liegt eine wesentlich höhere Funktionalität vor, da das System nicht nur Nachweisdaten verwaltet, sondern bereits Volltexte integriert, auf die über einer einheitliche Oberfläche zugegriffen werden kann. Insbesondere sind bereits sämtliche Forschungsberichte der Reihe Informatik-Reports sowie weitere Arbeiten von Institutsangehörigen eingebunden und im Volltext als Ergebnis einer Recherche abrufbar. Die Ergebnisse einer Anfrage enthalten darüber hinaus Verweise, welche zu weiteren WWW-Informationen (Home-Pages) der betreffenden Autoren, Verlage etc. führen.

Im Rahmen einer studentischen Gemeinschaftsarbeit wurde ein Prototyp eines DBS-basierten Information Retrieval-Systems namens Squirrel entwickelt, der im WWW zugänglich ist. Dabei werden z. Zt. verschiedene Dokumente aus dem Internet (insbesondere Artikel aus News-Gruppen und Mailing-Listen) verwaltet, wobei die Dokumente nach SGML konvertiert und innerhalb einer relationalen Datenbank gespeichert werden. IRS-Funktionen wie Indizierung und Gewichtung von Termen werden durch eigene Tabellen der Datenbank sowie spezielle Anwendungen realisiert. Ferner werden die Dokumente aufgrund der vorliegenden Terme durch einen Cluster-Algorithmus semi-automatisch bestimmten Knoten eines sogenannten Kontextgraphen zugeordnet, der eine inhaltliche Strukturierung der Dokumentenmenge unterstützt. Eine mit Java realisierte graphische Benutzeroberfläche erlaubt die Formulierung von Suchanfragen unter Verwendung des Kontextgraphen.

Konzeptuelle Datenbank-Modelle für Elektronische Patientenakten (Müller, Rahm)

Bei der Diagnostik und Therapie komplexer Erkrankungen, wie sie z.B. in der Onkologie vorkommen, sind die über einen Patienten vorliegenden Daten i.a. durch komplizierte Beziehungssysteme miteinander vernetzt. Solche Beziehungssysteme oder Kontexte repräsentieren z.B. die Kausalität einer Behandlung, geben über Inkonsistenzen oder Revidierungen bei der diagnostischen Entscheidungsfindung Auskunft, oder spiegeln patientenindividuelle Heuristiken wider. Die explizite Abbildung solcher zwischen den Daten bestehenden Beziehungssysteme ist für den Arzt sehr hilfreich, erfordert aber erweiterte Repräsentationsmodelle sowie flexible Query- und Navigationsmöglichkeiten innerhalb der Patientenakte. Da relationale Datenmodelle nur in sehr begrenztem Umfang in der Lage sind, solche Beziehungssysteme und Metastrukturen geeignet abzubilden, wird untersucht, wie sich komplexe Behandlungsverläufe mit Hilfe graph- und objektorientierter Datenbanken abbilden lassen. Auch eine Realisierung mit den logikbasierten Conceptual Graphs von J. Sowa und auf diesem Kalkül aufbauenden deduktiven Datenbanken wird derzeit bearbeitet.

Wissensbasiertes Workflow-Management in der Hämato-Onkologie (Müller, Rahm)

Die moderne Hämato-Onkologie ist charakterisiert durch die Verwendung von multizentrischen klinischen Therapiestudien. Die sich daraus ergebende Beteiligung zahlreicher Institutionen und Abteilungen an der Behandlung (onkologische Station und Ambulanz, Pathologie, Labor, Radiologie, externe Pathologen- und Radiotherapeuten-Panels, klinische und biometrische Studienleitung) sowie die im allgemeinen lange Behandlungsdauer implizieren große Datenmengen und einen komplexen Informations- und Materialfluß zwischen den verschiedenen Institutionen, der mit traditionellen Medien nur sehr mühsam fehlerfrei zu bewerkstelligen ist. Ziel des Forschungsprojekts ist es daher, mit Hilfe von Workflow-Management-Systemen die Organisationsabläufe und Informationstransfers zu unterstützen, um so das medizinische Personal zu entlasten und insbesondere Fehler (Verzugsmeldungen, fehlerhafte oder unvollständige Meldungen etc.) frühzeitig zu erkennen und die entsprechenden Gegenmaßnahmen einzuleiten. Der wissensbasierte Ansatz zielt daraufhin ab, das Wissen über onkologische Behandlungsmethoden und die Struktur der Therapiestudien deklarativ in Wissensbasen abzubilden, und generische Workflows zur Laufzeit mit den relevanten, hochgradig kontextabhängigen onkologischen Sachverhalten zu parametrisieren. Neben der Evaluierung kommerzieller Workflow-Management-Produkte konzentrieren sich die Arbeiten zur Zeit vor allem auf der Spezifikation eines Petrinetz-basierten Modells zur formalen Beschreibung der verschiedenen Workflow-Prozesse in der Hämato-Onkologie.

Die Arbeiten erfolgen in enger Kooperation mit dem Institut für Medizinische Informatik, Statistik und Epidemiologie der Universitätskliniken Leipzig (Prof. M. Löffler, Prof. A. Winter, B. Heller).

Geoinformationssysteme (Sosna, Rahm)

Geoinformationssysteme (GIS) dienen zur Speicherung und effizienten Verwaltung von geographischen Daten, insbesondere digitalisierten Landkarten unterschiedlicher Art, Katasterdaten, Flächennutzungsplänen, etc. Hierzu sind die meist heterogen strukturierten und großen Datenobjekte datenbankgestützt zu verwalten sowie ein effizienter raumbezogener Zugriff auf sie zu unterstützen. Für das Vorhaben der Landesvermessungsverwaltungen zum Aufbau digitaler Landschafts- und digitaler Kartenmodelle wurden für einen Teilbereich der GIS mit ATKIS (Amtliches Topographisch-Kartographisches Informationssystem) die konzeptionellen Grundlagen gelegt.

Unsere Untersuchungen, die in Kooperation mit dem Institut für Angewandte Geodäsie (IfAG), Außenstelle Leipzig, erfolgen, befassen sich mit der Umsetzung des ATKIS-Modells in relationale und objektorientierte Datenmodelle. Dabei wird zum einen an der Integration temporaler Aspekte gearbeitet, um unterschiedliche Versionen der karthographischen Informationen flexibel handhaben zu können. Weiterhin wird untersucht, wie eine Kopplung zwischen der Verwaltung geometrischer Daten in einem GIS sowie die Verwaltung der Sachdaten in einem kommerziellen DBS am besten gelöst werden kann.

Automatisches Performance-Tuning von Transaktionssystemen (Rahm)

Die Überwachung und Steuerung des Leistungsverhaltens derzeitiger Transaktionssysteme und Datenbanksysteme ist sehr komplex und erfolgt weitgehend manuell durch Systemverwalter, was gravierende Nachteile mit sich bringt. Abhilfe erlaubt hier ein automatischer, selbstoptimierender Ansatz zur Performance-Kontrolle, bei dem die Verarbeitung systemseitig ständig überwacht und analysiert wird. Bei erkannten Problemen werden Kontrollparameter des Systems in Abhängigkeit des aktuellen Systemzustands automatisch angepaßt. Zur Vereinfachung der Systemadministration verfolgen wir den Ansatz einer zielorientierten Performance-Kontrolle (goal-oriented performance control), mit dem externe Leistungsziele - insbesondere Antwortzeitvorgaben - automatisch eingehalten werden. Ferner wird eine umfassende und koordinierte Behandlung der wichtigsten Engpaß-Situationen angestrebt. Hierzu muß die Performance-Kontrolle in der Lage sein, kritische Kontrollparameter im Betriebssystem, Datenbanksystem und TP-Monitor selbständig einzustellen und aufeinander abzustimmen. In verteilten Transaktionssystemen kommt die Aufgabe der Lastverteilung hinzu, wobei sowohl eine Transaktionsverarbeitung mit einem Minimum an Kommunikation als eine Lastbalancierung - zur weitestmöglichen Umgehung von Überlastsituationen - anzustreben sind.

Unser Systemansatz geht von globalen und lokalen Kontrollkomponenten aus, die eng zusammenarbeiten, um globale Leistungsvorgaben zu erreichen. Die lokalen Komponenten überwachen die Transaktionsbearbeitung innerhalb der einzelnen Verarbeitungsrechner und sind für die dynamische Einstellung lokaler Kontrollparameter verantwortlich (z.B. Parallelitätsgrad, Anzahl von DB-Server-Prozessen, relative Transaktionsprioritäten, Hauptspeicherzuteilungen, CPU-Prioritäten etc.). Lokal nicht behebbare Leistungsprobleme werden an die globale Performance-Kontrolle weitergemeldet, die versucht, durch Anpassung globaler Parameter (z.B. Routing-Tabelle, Datenzuordnung) eine Lösung zu erreichen. Um den Overhead gering zu halten, werden die lokalen und globalen Kontrollkomponenten nur in bestimmten Zeitabständen aktiviert. Die quantitative Bewertung der Kontrollstrategien erfolgt mit umfassenden Simulationssystemen, wobei stark schwankende und komplexe Lastprofile verwendet werden.

Seitenanfang
Inhaltsverzeichnis
2.1.5 Forschungsvorhaben: Formale Konzepte
2.1.3 Forschungsvorhaben: Computeralgebra

HTML-Umsetzung: Andreas Zerbst