Vorlesung

(Sommersemester 2000)

Grundlagen der Dokumentenverarbeitung

Andreas Neumann - Universität Trier - Informatik - Programmiersprachen und Übersetzerbau

----------------

Dokumente treten in der Datenverarbeitung in den unterschiedlichsten Formen und Gebieten auf. Beispielsweise bezeichnen wir einen ASCII-Text, der als E-Mail verschickt wird, als Dokument, ebenso aber auch eine Web-Seite oder einen wissenschaftlichen Artikel. Andererseits sind auch Programm-Quelltexte und Graphik- oder Ton-Dateien Dokumente. In dieser Vorlesung beschäftigen wir im wesentlichen mit Dokumenten, die in irgendeiner Form als Text gelesen oder verarbeitet werden.

Ein wesentliches Merkmal eines Dokuments ist, dass es neben seiner logischen Struktur (Dateiformat, Codierung, etc.) eine Bedeutung hat. Oftmals kann ein Dokument in ein anderes Format gebracht werden, ohne dass es seine Bedeutung verliert. Beispielsweise ändert das Konvertieren einer Postscript-Datei in eine Pdf-Datei nichts an ihrer Bedeutung. Diese Art von Dokumentenverarbeitung richtet sich nur nach der logischen Struktur des Dokuments.

In der Vorlesung werden wir zum einen verschiedene Formate kennenlernen, mit denen man das Aussehen eines Text-Dokument beschreiben kann, z.B. LaTeX, HTML und Postscript. Wir werden uns mit den Grundlagen des Layouts von Dokumenten beschäftigen, insbesondere mit Schriftarten und Umbruchsalgorithmen.

Andererseits werden wir eingehend die Markup-Sprache XML behandeln. In XML werden Dokumente nur anhand ihrer logischen Struktur beschrieben; die Bedeutung eines Dokuments muss dann mit anderem Mitteln angegeben werden. Schließlich werden wir hierarchisch strukturierte Dokumente als Bäume auffassen und das Suchen in Dokumenten und das Transformieren von Dokumenten mithilfe von Baumautomaten untersuchen.

----------------

Ort und Termin: Freitag, 10-12 Uhr, HS10
Übung: Mittwoch, 13-15 Uhr, V302

----------------

A. Neumann (neumann@PSI.Uni-Trier.DE)