Forschungsprojekt

27 Mrz 2017

Containerformate

Im Alltag und besonders im Bereich der Technischen Kommunikation wird eine Vielzahl an Dokumentenformaten eingesetzt. Einige sind mehr als nur binäre Speicherformate der zugehörigen Programme. Die Formate von Office-Anwendungen, E-Books, Mind-Maps und auch das InDesign-Austauschformat IDML liegen als ZIP-gepackte Strukturen vor. Obwohl es den Dateiendungen wie .docx, .epub und anderen zunächst nicht anzusehen ist, lassen sich die eigentlichen Strukturen nach dem Laden in ein passendes Werkzeug wie 7-Zip direkt erkunden. Enthalten sind überwiegend XML-basierte Einzeldateien für Inhalte und Zusatzinformationen wie Formatierungen sowie weitere Verzeichnisse wie beispielsweise media im Fall von Word-Dokumenten für eingefügte Bilder. Man spricht deshalb von Containerformaten.

Für „normale“ Nutzer sind diese Informationen bestenfalls interessantes Beiwerk. Mit entsprechendem Know-how aus dem Bereich Content-Engineering kann die Produktion der genannten Formate automatisiert werden, was sich z. B. bei periodisch anfallenden Massendaten zur Aufbereitung in Text- oder Tabellenform anbietet. Dazu sind allerding detaillierte Kenntnisse spezieller Technologien wie XSLT zur Umsetzung von XML-Datenstrukturen in die formatspezifischen Auszeichnungssprachen wie u. a. WordML erforderlich.

Eine Einführung in das relativ komplexe Thema gibt der auf der tekom-Jahrestagung 2016 gehaltene Vortrag mit den Codebeispielen der praktischen Demonstrationen, siehe [1–3].

Literatur und Ressourcen

[1] Anleitung.docx.zip – Streifzug durch die Welt der Containerformate. In: tekom, Gesellschaft für technische Kommunikation e. V., Tagungsband zur Jahrestagung 2016, S. 166–169

[2] http://web.hs-merseburg.de/~meiniket/PDF/tekom2016_IN08_Meinike.pdf (Präsentation)

[3] http://web.hs-merseburg.de/~meiniket/PDF/tekom2016_IN08_Meinike.zip (Vortrag und Demos)

Projektdaten:

Projektleiter: Dr. rer. nat. Thomas Meinike
Zeitraum: Sommersemester 2016