Teilprojekt Z2: Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projektleitung: Thomas Schmidt
Wissenschaftliche Mitarbeiter: Timm Lehmberg, Kai Wörner, Hanna Hedeland
Studentische Hilfskräfte: Secil Yusun
Inhalte
Ziel dieses Projektes ist, auf der Basis aktueller texttechnologischer Forschung methodische und technologische Grundlagen für den Computereinsatz in der Mehrsprachigkeitsforschung zu schaffen, und davon ausgehend Software-Werkzeuge zu entwickeln, die der computergestützten Erfassung, Analyse und Archivierung mehrsprachiger Daten dienen. Dies erfolgt in wechselseitiger Zusammenarbeit mit den Teilprojekten des SFB und beinhaltet die Überführung älterer Datenbestände in aktuelle Standards der digitalen Datenverarbeitung sowie die Konzeption, Implementierung und Pflege von systemübergreifend einsetzbarer Software.
Vorarbeiten
Mit EXMARaLDA (Extensible Markup Language For Discourse Annotation) wurde ein Datenmodell erarbeitet, das geeignet ist, die älteren, projektspezifisch formatierten Daten auf einer gemeinsamen strukturellen Basis zu beschreiben. Damit wurden die Voraussetzungen für einen flexiblen Datenaustausch zwischen einzelnen Projekten, für eine langfristige Archivierung der Daten und für die Konstruktion von Softwarewerkzeugen, die über individuelle Projektzusammenhänge hinaus nutzbar sind, gegeben. Siehe dazu:
- Schmidt, Thomas (2005a): Computergestützte Transkription – Modellierung und Visualisierung gesprochener Sprache mit texttechnologischen Mitteln. (Reihe „Sprache, Sprechen und Computer“ 7). Frankfurt a. M.
- Schmidt, Thomas / Wörner, Kai (2005): Erstellen und Analysieren von Gesprächskorpora mit EXMARaLDA. In: Gesprächsforschung (Online-Zeitschrift zur verbalen Interaktion) 6, 171-195.
Ziele
Projekt Z2 verfolgt in dieser letzten Phase zwei Hauptziele. Erstens erarbeitet es mit den Teilprojekten des SFB weiterhin Methoden für die computergestützte Erstellung, Analyse und nachhaltige Aufbereitung ihrer Datenkorpora. Zweitens bereitet es eine Lösung vor, mittels derer die so entstandenen Daten über die Laufzeit des SFB hinaus für Forschung und Lehre nutzbar gehalten werden können und die Werkzeuge zur computergestützten Erstellung und Analyse von mehrsprachigen Daten zukünftig einsatzfähig bleiben. Hinsichtlich der direkt auf den SFB bezogenen Ziele ergeben sich folgende Aufgabenbereiche:
- Nachhaltige Aufbereitung der im Laufe der vierten Phase fertig gestellten Datenbestände
- Erarbeitung texttechnologischer und methodologischer Grundlagen der computergestützten Verarbeitung mehrsprachiger Daten
- (Weiter-)entwicklung und Optimierung von Datenmodellen, -formaten und Softwarewerkzeugen des EXMARaLDA-Systems
- Entwurf und Implementierung von Methoden der webbasierten Datenhaltung und -distribution
- Weiterentwicklung und Optimierung von Interoperabilität
- Einrichtung einer Verstetigung des Projekts