KI-gestützte Quellenanalyse: Das ZB-Lab vermittelt Forschenden neue Methoden
Was passiert, wenn Historiker*innen plötzlich mit ChatGPT ihre Quellen lesen? Genau dieser Frage gingen Anfang September 20 Forschende in der ZB nach. Mit der Summer School «Von der Quelle zum Datensatz» boten wir eine zweitägige Einführung in eine Methode, wie grosse Sprachmodelle zur Bearbeitung und Analyse von historischen Quellen eingesetzt werden können. Die Historiker*innen und Theolog*innen lernten verschiedene Prompting-Strategien kennen, erstellten ein Datenmodell und prüften die Ergebnisse manuell und maschinell.

Ein Kurs, der aus einem Gespräch entstand
Das Format der Summer School hat sich in den letzten Jahren an der ZB etabliert. Die ZB lädt jeweils Dozierende von Hochschulen ein, eine neue digitale Methode zu vermitteln, die zur Analyse von Quellen eingesetzt werden kann. Dieses Jahr war die Summer School aber anders. Wir vom ZB-Lab haben uns ein Herz gefasst und die Vermittlung aus eigener Kraft gestemmt. Das Kursprogramm lehnte sich sehr stark an das Projekt an, mit dem wir uns gerade auseinandersetzten. Wir experimentierten nämlich anhand der Nachtzedel damit, wie wir Sprachmodelle gezielt nutzen können, um die Information aus semistrukturierten Listen herauszulesen und in strukturierte Daten zu überführen. Die Nachtzedel aus Zürich sind Einblattdrucke aus dem späten 18. und frühen 19. Jahrhundert, auf denen der Zürcher Nachtschreiber täglich die Namen, Berufe und Herkunftsorte aller Übernachtungsgäste der Zürcher Hotels festhielt (mehr zu den Nachtzedeln erfahren Sie in diesem Blog-Artikel).
Die Idee für diese Summer School entsprang einem Gespräch mit einer Historikerin, die sich nach unserer Methode erkundigte. Uns wurde bewusst, dass wir im ZB-Lab etwas entwickelten, das für viele Forschende, die mit Quellen arbeiten, hochrelevant sein könnte. Wir waren dabei, die Nachtzedel mit ChatGPT zu analysieren und entwickelten einen Prozess der fortlaufenden Überprüfung der Ergebnisse. Dadurch erlangten wir eine solide Grundlage und wussten genau, was wie gut funktioniert. Diese Arbeitsweise, die das Erstellen eines Datenmodells und eines Goldstandards beinhaltet, war den hermeneutisch ausgebildeten Historiker*innen zu diesem Zeitpunkt noch nicht vertraut. Obwohl Sprachmodelle weiterhin Blackboxen sind, kann man mit unserer Methode eine gewisse Sicherheit im Umgang mit ihnen erzielen.
Gut vorbereitet – aber würde es auch gut gelingen?
Nun lag die Herausforderung vor allem darin, unser Wissen und unsere Erfahrung so auszuwählen und herunterzubrechen, dass digital affine Forschende ohne Vorkenntnisse unseren Ausführungen folgen konnten. Wir gingen auch davon aus, dass der Wissensstand der Teilnehmenden sehr unterschiedlich sein würde. Um möglichst allen einen guten Einstieg zu ermöglichen, veranstalteten wir einen Pre-Event in Form eines KI-Crashkurses. Das war eine gute Gelegenheit, die Teilnehmenden in einer Online-Sitzung schon etwas kennenzulernen.
Eine gewisse Unsicherheit blieb aber dennoch. Wir steckten viel Arbeit in die Entwicklung von Jupyter Notebooks – einer Mischung aus ausführbarem Code und erklärendem Text, die sich für Unterrichtssituationen besonders eignet. Zudem legten wir die Latte noch höher: Statt den Teilnehmenden unsere Nachtzedel als Übungsbeispiel aufzuzwingen, luden wir sie ein, ihre eigenen Daten mitzubringen. Das bedeutete: Unsere Kursdokumentation musste so klar und flexibel sein, dass sie für jedes Projekt funktionierte – nicht nur für unseres. Eine Teilnehmerin aus Göttingen bestätigte hinterher, dass sich diese Entscheidung ausgezahlt hatte. Sie schrieb im Feedback «Großes Lob dafür, mit eigenen Daten arbeiten zu dürfen.»
Die Summer School war für uns mehr als ein Vermittlungsformat – sie war ein Realitätscheck.
Dann kamen die Tage der Durchführung. Alle Übungen und Folien waren bereit. Für die praktischen Arbeitsphasen hatten wir das Team durch weitere Expert*innen ergänzt. Die Summer School war für uns mehr als ein Vermittlungsformat – sie war ein Realitätscheck. Wir wollten verstehen, mit welchen Fragestellungen die Forschenden arbeiteten und wie sie Sprachmodelle einzusetzen dachten. Das Format der Poster Session gab uns genau diesen Einblick: In drei bis fünf Minuten stellten die Teilnehmenden ihre Projekte vor, Fragen wurden diskutiert, und gemeinsam identifizierten wir, wo jemand Unterstützung durch eine Machine-Learning- oder Digital-Humanities-Expertise brauchte.
Den Abschluss des ersten Tages bildete der Abendvortrag von Prof. Tobias Hodel (Universität Bern) – er hinterliess eine produktive Unruhe. Hodel, einer der profiliertesten Kenner von Machine Learning in den Geisteswissenschaften, argumentierte, dass die Zukunft nicht allein den grossen, schwer kontrollierbaren Sprachmodellen gehöre. Was es brauche, seien bewusste Entscheidungen, kritische Abwägungen – und algorithmic literacy, die Fähigkeit, Algorithmen zu verstehen, zu bewerten, und mit ihnen umzugehen. An seinem Lehrstuhl trainieren und verfeinern sie Modelle gezielt, statt auf Generative Pre-Trained Transformer (GPT) zu setzen. Ein unbequemer Wink für eine Summer School, die den ganzen Tag mit GPT gearbeitet hatte, andererseits genau richtig, denn: wer Werkzeuge kritisch einsetzen will, muss auch ihre Grenzen kennen. Am nächsten Morgen schauten alle etwas genauer hin.

Wie verlässlich sind die KI-generierten Daten?
Genau darum ging es am zweiten Tag: Wie verlässlich sind die Ergebnisse, die die Sprachmodelle am Vorabend ausgegeben hatten? Haben die Modelle vielleicht den Inhalt der Quellen verfälscht? Etwa durch Halluzinationen, die auf den ersten Blick kaum auffallen? Sarah Kiener (ZB-Lab) gab eine Einführung in Methoden und Metriken zur Evaluation. Gleich anschliessend überprüften die Teilnehmenden ihre eigenen Ergebnisse mit einem vorbereiteten Python-Skript und berechneten das Qualitätslevel.
Wer Werkzeuge kritisch einsetzen will, muss auch ihre Grenzen kennen.
Metriken allein reichen aber nicht. Eine sorgfältige Datenkritik braucht auch den menschlichen Blick. Für serielle Quellen wie die Nachtzedel eignet sich dafür OpenRefine besonders gut – ein Tool, das auf den ersten Blick an Excel erinnert, aber für die Analyse und Korrektur grosser Datensätze weit mächtiger ist. Im Anschluss an die Datenkontrolle lernten die Teilnehmenden Grundfunktionen der Datenanreicherung. Dazu gehört das Hinterlegen von Ortsnamen mit Geokoordinaten, oder das Verknüpfen von historischen Persönlichkeiten mit ihren Normdaten – strukturierte Datensätze, die Entitäten wie Personen oder Körperschaften eindeutig identifizieren und eine eigene ID besitzen. Die Persönlichkeiten wurden mit Normdaten aus Wikidata und GND, der Gemeinsamen Normdatei, verknüpft. Für die meisten war diese Lerneinheit, die an sich mit Machine Learning nichts zu tun hat, fruchtbares Neuland. Durch die Verknüpfung der Datensätze mit Normdaten, wird die Qualität nochmals deutlich gesteigert. Sie erlaubt es, komplexeren Fragen auf den Grund zu gehen und vereinfacht die Nachnutzung und Kombination mit anderen Datensätzen.
Damit solche Datensets, wie wir sie im Kursbeispiel erarbeiteten, ihren Wert entfalten können, müssen sie nach den Open-Science-Prinzipien beschrieben und veröffentlicht werden. Hierzu gab Elisabeth Gamer (Open-Science-Koordinatorin, ZB) eine konkrete Handreichung zu den zentralen Fragen der Datenpublikation: Was soll ich wo und wie publizieren?
Für uns als Team war die Summer School mehr als ein gelungener Anlass. Der enge Einblick in so unterschiedliche Forschungsvorhaben hat uns gezeigt, wie gross das Bedürfnis nach Orientierung im Umgang mit Sprachmodellen ist – und wie vielfältig die Wege dorthin sind. Was passiert also, wenn Historiker*innen mit ChatGPT ihre Quellen lesen? Ein Teilnehmer hat es sehr gut auf den Punkt gebracht: «Die meiste Zeit verwendet man auf die Kontrolle der Daten.» Das ist eigentlich genau, was wir vermitteln wollten: Sprachmodelle sinnvoll nutzen und dabei genau hinschauen.
Elias Kreyenbühl
ZB-Lab



