Das Daidalos-Projekt erforscht das Potential digitaler Forschungsmethoden für aktuelle Forschungsfragen der Klassischen Philologie. Dabei liegt der Fokus auf Methoden des Natural Language Processing (NLP). Das Projekt vereint ausgewählte Forschungswerkzeuge, autodidaktische Weiterbildungsbausteine und eine Anlaufstelle für Forschende der Klassischen Philologie in einer webbasierten Forschungsinfrastruktur.

Mittelgeber: DFG
Förderbereich: Wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS)
Programm: e-Research-Technologien
Projektnummer: 518919950

Daidalos

Entwicklung einer Infrastruktur zum Einsatz von Natural Language Processing (NLP) für Forschende der Klassischen Philologie

Die Digitalisierung macht auch vor der Klassischen Philologie nicht Halt. Bis vor einigen Jahrzehnten blieb den Forschenden nichts Anderes übrig, als sich in mühevoller Handarbeit einen Weg durch ihre Texte zu bahnen. Obwohl diese Arbeitsweise beeindruckende und mustergültige Werke hervorbrachte, haben heute verfügbare digitale Forschungswerkzeuge das Potential, entscheidende Arbeitsschritte zeitsparender und weniger fehleranfällig zu erledigen.

Daidalos ist keinesfalls das erste klassisch-philologische Projekt mit einem Fokus auf digitale Forschungsmethoden. Sein Alleinstellungsmerkmal besteht zum einen darin, dass es versucht, existierende digitale Methoden der Textanalyse und der Ergebnisdarstellung in einer webbasierten Forschungsinfrastruktur zu vereinigen, diese auch für Projektexterne evidenzbasiert und nachvollziehbar zu evaluieren und weiterzuentwickeln. Zum anderen versteht sich Daidalos als Kontaktpunkt für interessierte Forschende (Community of Practice) und als Lernort, an dem Forschende ihre digitale Kompetenz (Digital Literacy) mithilfe verschiedener Lernbausteine autodidaktisch auf- und ausbauen können.

Bedarfsorientierung durch Forschungstandems

Für eine begründete Auswahl der von Daidalos angebotenen Textkorpora, Analysewerkzeuge, Visualisierungen und Lernbausteine evaluiert das Projekt-Team zunächst das Potential ausgewählter NLP-Methoden. Dies geschieht auf Grundlage von realen Forschungsfragen (z. B. zu Autorschaft, Intertextualität oder Diskursstrategien), die aus der Forschungsgemeinschaft an das Daidalos-Projekt herangetragen werden. Die Zusammenarbeit in diesen Forschungstandems ist wie folgt angelegt: In einem ersten Beratungsgespräch präsentieren die Forschenden ihr Forschungsinteresse, eine mögliche Forschungsfrage und das gewünschte Textkorpus. Das Daidalos-Team berät sie bei der Konkretisierung der Forschungsfrage und erklärt, welche Analysewerkzeuge (z. B. morphosyntaktische Tagger, Arbeit mit Word Embeddings) und Visualisierungsoptionen (z.B. annotierter Text, Graph) geeignet sein könnten. Die von Daidalos angebotenen Werkzeuge der maschinellen Sprachverarbeitung ermöglichen sowohl die Analyse linguistischer Erscheinungen (u. a. Wortarten, Kollokationen, Syntax) als auch literaturwissenschaftlicher Fragestellungen (u. a. Genremerkmale, Paraphrasensuche, antike Konzepte). Sobald die Analyseergebnisse vorliegen, übergibt das Daidalos-Team sie den Forschenden zur Beurteilung. In einem weiteren Gespräch evaluieren die Forschenden gemeinsam mit dem Daidalos-Team die Qualität der Ergebnisse und der Visualisierung. Bei Bedarf werden die Parameter angepasst und weitere Analysedurchgänge durchgeführt. Die aus den Forschungstandems gewonnen Erkenntnisse werden als Use Cases zum Aufbau der webbasierten Infrastruktur und zur Gestaltung der Lerneinheiten genutzt.

Interaktive Forschungsinfrastruktur als Lernangebot

Der interaktive Zugang zu antiken Texten soll nicht nur Forschungsfragen beantworten helfen, sondern auch Methodenreflexion fördern und User qualifizieren. Entsprechend bietet die Software folgende Inhalte:

a) Demo-Workflows mit konfigurierbaren Elementen, z. B. Korpusauswahl, wobei die Konfiguration mittels kuratierter, authentischer Beispiele detailliert erklärt und reflektiert wird;
b) eine domänenspezifische Oberfläche u. a. mit Interaktionen zu Forschungsinteresse und Methodenwahl; Speicherung von personalisierten Einstellungen; Übungen und Code-Snippets in Jupyter Notebooks;
c) freie Konfiguration von Text- und Methodentriangulation, Einbindung von eigenem Quellcode für erfahrene Forschende.

Daidalos

Development of an infrastructure for the use of natural language processing (NLP) for researchers in the field of Classics

Classical philology is undergoing a process of digitisation. Until a few decades ago, researchers had no choice but to make their way through their texts by hand. Although this way of working produced impressive and exemplary results, the digital research tools available today have the potential to save time and minimise the risk of errors. Daidalos is by no means the first Classics project to focus on digital research methods. Its unique selling point is that it attempts to combine existing digital methods of text analysis and visualisation in a web-based research infrastructure. It also seeks to evaluate and further develop these methods in an evidence-based and easily comprehensible way. Daidalos aims to be a platform for interested researchers (community of practice) and a learning environment where researchers can develop and expand their digital skills (digital literacy) with the help of various autodidactic learning modules.

Tailoring to needs of users through research teams (tandems)

To make an informed selection of the text corpora, analysis tools, methods of visualisation and learning modules offered by Daidalos, the first step for the project team is to evaluate the potential of selected NLP methods. This is done on the basis of real research questions (e.g. on authorship, intertextuality or discourse strategies) that are presented to the Daidalos project by members of the research community. Collaboration in these research tandems is organised as follows: In an initial consultation, the researchers present their research interest, a possible research question and the desired text corpus. The Daidalos team advises them on the specifics of the research question and explains which analysis tools (e.g. morphosyntactic taggers, working with word embeddings) and visualisation options (e.g. annotated text, graph) might be suitable. The machine language processing tools offered by Daidalos make it possible to analyse both linguistic phenomena (e.g. word types, collocations, syntax) and literary questions (e.g. genre features, paraphrase search, ancient concepts). As soon as the results of the analyses are available, the Daidalos team hands them over to the researchers for assessment. In a follow-up meeting, the researchers evaluate the quality of the results and the visualisation together with the Daidalos team. If necessary, the parameters are adjusted and further analyses are carried out. The insights gained from these use cases are channelled into the development of the website infrastructure and the design of the training material.

Interactive research infrastructure as a learning offer

The interactive access to ancient texts is not only intended to help answer research questions, but also to promote methodological reflection and empower users. Accordingly, the software offers the following content:
(a) Demo-workflows with configurable elements, e.g. corpus selection, with detailed explanations;
(b) a domain-specific interface with various features including interactions on research interest and method selection; storage of personalised settings; exercises and code snippets in Jupyter Notebooks;
(c) free configuration of text and method triangulation, integration of own source code for experienced users.

Principle Investigators



Prof. Dr. Anke Lüdeling	Direktor Malte Dreyer	Dr. Andrea Beyer
Korpuslinguistik	Computer- und Medienservice	Klassische Philologie

Wissenschaftliche Mitarbeiter



Nico Faltin	Konstantin Schulz	Florian Kotschka
Latinist	NLP-Spezialist	Softwarearchitekt

Studentischer Mitarbeiter



Florian Deichsler
Historischer Linguist

Forschungsbeispiele

Beispiel 1

Mit welchen Attributen ist bellum verknüpft? Ist die Kollokation bellum iustum als Konzept nachweisbar?
(vgl. Girardet, Klaus M. "Gerechter Krieg - Von Ciceros Konzept des Bellum Iustum bis zur UNO-Charta." In Res Publica und Demokratie, herausgegeben von Helmut König, Emanuel Richter und Rüdiger Voigt, 191-223. Baden-Baden: Nomos, 2007).

Mit Daidalos könnte man die Kontexte, in denen das Wort bellum vorkommt, auf ihre Assoziationsstärke hin untersuchen. Die Assoziationsstärke gibt an, wie häufig bestimmte Wörter gemeinsam auftreten. (Abb. 1).

Beispiel 2

Wie wird mit Faktualität (Gegensatzpaar: fabula - probata, "bloße Erzählung - überprüfte Fakten") in verschiedenen Gattungen umgegangen?
(vgl. Cordes, Lisa. "Wenn Fiktionen Fakten schaffen. Faktuales und fiktionales Erzählen in den spätantiken Panegyrici Latini." In Faktuales und fiktionales Erzählen II. Geschichte - Medien - Praktiken,herausgegeben von Dustin Breitenwischer, Hanna-Myriam Häger und Julian Menninger, 31-56. Baden-Baden: Ergon, 2020)

Daidalos könnte die Suche relevanter und oftmals unerwarteter Textstellen unterstützen, indem die Software mittels distributioneller Semantik die Suche nach Wortfeldern, Themen oder ähnlichen Diskursstrukturen ermöglicht (Abb. 2).

Nachgenutzte Software und Datensätze

Beschreibung	Lizenz	Herkunft
Altgriechische und Lateinische Stoppwortlisten	CC BY NC SA	Berra, Aurel. Ancient Greek and Latin Stopwords [Data set]. https://github.com/aurelberra/stopwords.
Altgriechisches KI-Modell für Named Entity Recognition (UGARIT/flair_grc_bert_ner)	CC BY 4.0	Yousef, Tariq, Palladino, Chiara und Jänicke, Stefan. “Transformer-Based Named Entity Recognition for Ancient Greek.” In Digital Humanities 2023: Book of Abstracts, herausgegeben von Anne Baillot, Toma Tasovac, Walter Scholger und Georg Vogeler, 420-2. Zenodo, 2023. https://doi.org/10.5281/zenodo.8107629.
Altgriechisches KI-Modell für Sprachverarbeitung (greCy)	MIT	Myerston, Jacobo und López, Jose. greCy: Ancient Greek spaCy Models for Natural Language Processing in Python (Version 1.0) [Computer software]. https://github.com/jmyerston/greCy.
Korpussuch- und Visualisierungswerkzeug (graphANNIS)	Apache-2.0	Krause, Thomas. graphANNIS. Zenodo, 2024. https://doi.org/10.5281/zenodo.2598164.
Software für Topic Modelling und Textvektorisierung (Gensim)	LGPL-2.1	Řehůřek, Radim und Sojaka, Petr. "Software Framework for Topic Modelling with Large Corpora." In Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, herausgegeben von René Witte, Hamish Cunningham, Jon Patrick, Elena Beisswanger, Ekaterina Buyko, Udo Hahn, Karin Verspoor und Anni R. Coden, 46-50. Malta: ELRA, 2010. http://is.muni.cz/publication/884893/en.

Aktueller Stand der maschinellen Sprachverarbeitung für Latein und Altgriechisch

Was ist momentan grundsätzlich möglich?

Die aktuellen Möglichkeiten der maschinellen Sprachverarbeitung für Latein und Altgriechisch erlauben es uns beispielsweise,

Informationslücken in historiografischen Texten zu finden, indem wir Personen, Orte und andere Eigennamen erkennen.
die Rolle der Polis in Epitaphien zu untersuchen, indem wir
- Wörter und Textstellen thematisch durchsuchen und gruppieren und
- moralisch positive und negative Narrative identifizieren.
die Imitation des Ciceronischen Stils in neuzeitlichen Aufsätzen nachzuweisen, indem wir
- den Satzbau analysieren, z.B. Subjekte, Objekte, Prädikate,
- Wortarten erkennen,
- morphologische Informationen erkennen, z.B. Kasus, Numerus, Genus, Tempus, Modus.

Fehleranfälligkeit

Die maschinelle Sprachverarbeitung befindet sich in stetiger Weiterentwicklung. Systeme zur automatischen Analyse antiker Sprachen sind nie perfekt, machen also Fehler. Ein Beispiel ist die Lemmatisierung, wo flektierten Wörtern mitunter die falsche Grundform zugeordnet wird.

Geschwindigkeit der Weiterentwicklung

Dennoch wird die Leistung der Algorithmen tendenziell immer besser, d.h. sie machen ihre Arbeit schneller und zuverlässiger. Darum lohnt es sich, den Stand der Dinge im Blick zu behalten und regelmäßig neu zu evaluieren. Selbst wenn die Ergebnisse in einem bestimmten Fall noch nicht unseren Ansprüchen genügen, kann dies schon wenige Jahre später ganz anders aussehen.

Notwendigkeit der Fortbildung

Solange wir also mit solchen Algorithmen arbeiten, sollten wir uns regelmäßig fortbilden:

Welche neuen Veröffentlichungen zum Thema gibt es?
Wie funktionieren die neuen Algorithmen und Methoden?
Was wird wahrscheinlich demnächst möglich sein?

Zum Nachlesen

Berti, Monica, ed. Digital Classical Philology: Ancient Greek and Latin in the Digital Revolution. Berlin: De Gruyter, 2019.

Johnson, Kyle P., Burns, Patrick J., Stewart, John, Cook, Todd G., Besnier, Clément und Mattingly, William J.B. “The Classical Language Toolkit: An NLP Framework for Pre-Modern Languages.” In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations. Association for Computational Linguistics, herausgegeben von Heng Ji, Jong C. Park und Rui Xia, 20–9. Association for Computational Linguistics, 2021. PDF

Revellio, Marie. Classics and the Digital Age: Advantages and Limitations of Digital Text Analysis in Classical Philology. Digital Humanities Cooperation, 2015. PDF

Short, William. Blog: Computational Classics? Programming Natural Language Understanding. Society for Classical Studies Blog, 2019. PDF

Sommerschield, Thea, Assael, Yannis, Pavlopoulos, John, Stefanak, Vanessa, Senior, Andrew, Dyer, Chris, Bodel, John, Prag, Jonathan, Androutsopoulos, Ion, und de Freitas, Nando. “Machine Learning for Ancient Languages: A Survey.” Computational Linguistics 49, no. 3 (September 2023): 703–47.

Community of Practice

Im Rahmen des Daidalos-Projektes haben wir den überregionalen Arbeitskreis Digital Classics (BridgeClassics) aufgebaut, den wir zu einer Community of Practice (CoP) im Sinne des situierten Lernens (Lave und Wenger, Situated Learning) erweitern und mit DH-Workshops unterstützen.

Erfolgskriterien für eine CoP sind „leadership roles, personalized learning, guiding principles, organizational support, social learning and purpose“ (Trust und Horrocks, "Six Key Elements," 108)

Die CoP wird durch Forschungstandems ausgebaut, wie sie u. a. im Design-Based Research Ansatz (Bakker, Design Research) üblich und auch in unserer Fachcommunity (Freund und Jannsen, "Forschendes Lernen") bekannt sind.

Bakker, Arthur. Design Research in Education: A Practical Guide for Early Career Researcher. New York: Routledge, 2018.
Freund, Stefan und Janssen, Leoni. "Forschendes Lernen im Praxissemester unter den Bedingnungen kleiner Fächer. Ein Praxiskonzept für die Begleitung von Studienprojekten im Praxissemester am Beispiel des Faches Latein." Die Materialwerkstatt. Zeitschrift für Konzepte Und Arbeitsmaterialien für Lehrer*innenbildung Und Unterricht 2 no. 2 (2020): 66–74.
Lave, Jean und Wenger, Etienne. Situated Learning: Legitimate Peripheral Participation. Cambridge: Cambridge University Press, 1991.
Trust, Torrey und Horrocks, Brian. "Six Key Elements Identified in an Active and Thriving Blended Community of Practice." TechTrends 63, no. 2 (2019): 108-15.

Forschungstandems

Der Aufbau der Daidalos-Infrastruktur erfolgt u.a. über sogenannte Forschungstandems. Dabei handelt sich um Kollaborationen mit einigen Forschenden, die ihre Forschungsfrage mit Bitte um Mithilfe an das Daidalos-Team herangetragen haben. Gemeinsam werden Bedarfe herausgearbeitet und mögliche NLP-Lösungen besprochen und umgesetzt. Der idealtypische Ablauf eines Forschungstandems sieht wie folgt aus:

Erster Kontakt
Erstgespräch Forschungsfrage, Korpus, NLP-Methoden
Bereitstellung Forschungsmaterial
Prototyp, erste Ergebnisse
Zweitgespräch Ergebnisdiskussion
ggf. Iteration 3-5
Kooperative Publikation

Workflow der Zusammenarbeit zwischen Daidalos und Forschungspartnern

Wir möchten Sie sehr herzlich zu unserem ersten Workshop einladen, mit dem wir unser DFG-Projekt Daidalos offiziell der interessierten Fachcommunity vorstellen und zum Mitmachen anregen wollen.

Programmpunkt	Uhrzeit	Speaker
Anmeldung	08:30 Uhr
Begrüßung, Vorstellung des Daidalos-Projektes	09:00 - 09:15 Uhr	Prof. Dr. Lisa Cordes (HU Berlin), Nico Faltin (HU Berlin)
Einführungsvortrag: NLP-Methoden in der Klassischen Philologie (Schwerpunkt: Word Embeddings)	09:15 - 10:15 Uhr	Dr. Andrea Beyer (HU Berlin), Konstantin Schulz (HU Berlin)
Kleine Pause	10:15 - 10:30 Uhr
Forschungstandem: Blick in die Werkstatt	10:30 - 11:15 Uhr	Prof. Dr. Thomas Baier (Julius-Maximilians-Universität Würzburg)
Kleine Pause	11:15 - 11:30 Uhr
Forschungstandem: Erfahrungsbericht	11:30 - 12:15 Uhr	Joshua Burgert (Albert-Ludwigs-Universität Freiburg)
Mittagspause	12:15 – 13:45 Uhr
Hands-On Workshop: Data Preprocessing & Word Embeddings	13:45 – 15:45 Uhr	Daidalos-Team
Pause	15:45 - 16:30 Uhr
Abschlussdiskussion: NLP-Methoden - eine Revolution für die Literaturwissenschaft in der Klassischen Philologie?	16:30 – 17:30 Uhr	u. a. mit PD Dr. Monica Berti (Universität Leipzig), Prof. Dr. Lisa Cordes (HU Berlin)
Im Anschluss besteht die Möglichkeit zu einem gemeinsamen Abendessen.

Anreise

Adresse:
Humboldt-Universität zu Berlin Unter den Linden 6
10117 Berlin
Raum 1066e (Erdgeschoss)

Der Veranstaltungsort ist fußläufig von den Bahnhöfen Friedrichstraße (U6, S1, S3, S5, S7, S75, S9), Unter den Linden (U6, U5) und Museumsinsel (U5) zu erreichen.

Vom Berliner Hauptbahnhof zur Humboldt-Universität

U5 (Richtung Wuhletal) bis Unter den Linden, von dort 300m Fußweg

Vom Flughafen BER zur Humboldt-Universität

FEX (Richtung Berlin Hbf) bis Ostkreuz, dort umsteigen in S3, S5, S7, S75, S9 bis Friedrichstraße, von dort 600 m Fußweg
RE 8 (Richtung Wittenberge/Wismar) bis Friedrichstraße, von dort 600 m Fußweg
S 9 (Richtung Spandau) bis Friedrichstraße, von dort 600 m Fußweg
RB 23 (Richtung Potsdam/Golm) bis Friedrichstraße, von dort 600 m Fußweg

PKW - Parken und Anfahrt

Direkt an der Straße "Unter den Linden" darf nicht geparkt werden. In der näheren Umgebung befinden sich aber verschiedene kostenpflichtige Parkmöglichkeiten, etwa in der Dorotheenstraße und in verschiedenen Tiefgaragen.
Beachten Sie bitte die in der Innenstadt geltenden Umweltzonen. Die Nichtbeachtung kann ein Bußgeld nach sich ziehen.

Datum	Veranstaltung	Titel	PDF
11.11.	Labor für digitale Medien, Uni Kiel	KI im Spracherwerb
09.09. - 15.09.	Sommer-Uni Berlin	Fach-und Fallspezifische KI-Bildung in den Geisteswissenschaften
11.07. - 13.07.	Aquilonia, Kiel	Einsatz maschineller Sprachverarbeitung zur automatisierten thematischen Kategorisierung mittellateinischer Bittbriefe an den Papst
04.07. - 06.07.	Volturnia, KU Eichstätt	Digitale Methoden in der Klassischen Philologie
01.07.	Tag des Interdisziplinären Zentrums, HU Berlin	Daidalos: NLP-Forschungsinfrastruktur für die Klassische Philologie
27.06. - 29.06.	Nomina Omina, Leipzig	Daidalos: NER for Literary Studies on Latin and Greek Texts	[PDF]
18.06	Research Lounge, HU Berlin	Eine NLP-Infrastruktur für KI-skeptische User	[PDF]
14.06.	Daidalos-Workshop, HU Berlin	NLP-Methoden in der Klassischen Philologie - Word Embeddings	[PDF]
05.06. - 07.06.	EUNIS, Athen	Can Jupyter help Daidalos? Or: How to develop and assess Digital Literacies?	[PDF]
02.04. - 05.04.	DAV-Kongress, Wuppertal	Reflexion mit und über KI im AU	[PDF]
16.03.	Fortbildung Thüringen	KI im Lateinunterricht	[PDF]
26.02. - 01.03.	DHD, Passau	Wie viel Methodenkompetenz braucht ein User?	[PDF]
29.01.	Fortbildungstag Abtei-Gymnasium, Köln	Generative KI und ihre Bedeutung für Bewertungskontexte	[PDF]
22.01.	KU Eichstätt, Vorlesung	Digitale Methoden in der Klassischen Philologie	[PDF]
11.01.	DH-Kolloquium, FU	NLP-Infrastruktur für die Klassische Philologie	[PDF]

Datum	Veranstaltung	Titel	PDF
11.10.	Fortbildung DAV Berlin-Brandenburg	@chatbot: warum kannst du latein et quo vadis?	[PDF]
04.10. - 06.10.	Forge 2023, Tübingen	Data Literacy für die Klassische Philologie: dAIdalos – eine interaktive Infrastruktur als Lernangebot	[PDF]
28.09. - 29.09.	Tagung, Freiburg: (Digitale) Chancen für den Lateinunterricht	Digitalgestützte Textanalyse in Forschung und Lehre	[PDF]
28.09.	GI-Tagung Informatik 2023, Berlin	Daidalos: Forschen und Lernen zugleich? Data Literacy als Lernaufgabe für die Klassisch-philologische Forschung	[PDF]
27.09.	Fachtagung Bielefeld: Zwischen Wachstafel und ChatGPT - KI im Lateinunterricht	Vortrag: KI-Bildung: Was, warum und wie?	[PDF]
27.09.	Fachtagung Bielefeld: Zwischen Wachstafel und ChatGPT - KI im Lateinunterricht	Workshop: Mit und über KI-Tools im Lateinunterricht reflektieren	[PDF]

2024

Beyer, A. (2024): KI im altsprachlichen Unterricht. Beyer, A. LGNRW, 5(1): i. Vorb.
Beyer, A. (2024): Rezension zu „KI-Bildung im Lateinunterricht – Ein schulpraktischer Leitfaden“ der Reihe KI-Bildung im Ovid Verlag, Hrsg. Rudolf Henneböhl. Beyer, A. LGBB, 68(2): i. Vorb.
Beyer, A. & Schulz, K. (2024): Daidalos: Wie viel Methodenkompetenz braucht ein User? https://zenodo.org/records/10698299 (peer-reviewed)

2023

Daidalos: Forschen und Lernen zugleich? Data Literacy als Lernaufgabe für die Klassisch-philologische Forschung. Beyer, A.; and Schulz, K. In INFORMATIK 2023 - Designing Futures: Zukünfte gestalten, pages 391–393, Berlin, 2023, (peer-reviewed) https://dl.gi.de/server/api/core/bitstreams/54020598-2f57-49e5-997e-1b0cd46bf35f/content
Data Literacy für die Klassische Philologie - dAIdalos - eine interaktive Infrastruktur als Lernangebot. Beyer, A.; and Schulz, K. In FORGE 2023 - Anything Goes?! Forschungsdaten in den Geisteswissenschaften - kritisch betrachtet, pages 143–146, Tübingen, 2023, (peer-reviewed). https://zenodo.org/records/8386450

Forschungsinfrastruktur Daidalos