Die Akzeptanz von “KI” – womit ich gemäß allgemeinem Sprachgebrauch hauptsächlich die chatbasierten Large Language Models (LLMs) wie bspw. ChatGPT, Perplexity, Gemini oder DeepL meine – ist in meinem persönlichen Umfeld durchaus durchwachsen.
Der Faszination darüber, was insbesondere die großen “KI”-Modelle leisten können, steht ein gesundes Misstrauen bezüglich der Fehler (“Halluzinationen”) und der fehlenden Reproduzierbarkeit von Ergebnissen gegenüber. Dazu kommen ethische und ökologische Vorbehalte.
Und natürlich muss man sich die berechtigte Frage gefallen lassen: Wenn Du Dir nicht die Mühe machst, es selbst zu schreiben, warum soll ich mir die Mühe machen, es selbst zu lesen?
Tatsache ist aber: die Technologie ist da und sie geht wohl auch nicht wieder weg. Es steht der Mitarbeiterin eines Datenkompetenzzentrums nicht gut zu Gesicht, die neuesten technologischen Entwicklungen aus Prinzip zu ignorieren oder zu boykottieren. Ich möchte daher die Gelegenheit nutzen um ausführen, wie und warum ich “KI” als Hilfsmittel bei der Erstellung unserer Selbstlernkurse eingesetzt habe.
(Wie immer kann ich hier nur für mich sprechen – es kann sein, dass meine Kolleg:innen andere Abwägungen und Entscheidungen getroffen haben und anders vorgegangen sind.)

Vorweg..
Von den frei zugänglichen LLM-Chatbots habe ich die folgenden Modelle ausprobiert: ChatGPT, Perplexity und Duck.ai. In den allermeisten Fällen habe ich Perplexity genutzt, weil es am transparentesten mit den Quellen umgeht, aus denen es seine Antorten bezieht. In einigen Fällen habe ich aber auch zwei Modelle gegeneinander antreten lassen – entweder indem ich die Ergebnisse desselben Prompts verglichen habe, oder indem ich die Antwort des einen Models einem anderen für Feedback vorgelegt habe. Dies diente vor allem dazu, die Stärken und Schwächen der Modelle zu vergleichen und ein Gefühl für die zu erwartenden Resultate zu entwickeln.
Zum Einsatz von LLM in den Digital Humanities (inklusiver einer umfassenden Einordnung der Vor- und Nachteile und einigen guten Hinweisen für das “Prompt-Engineering”) hat Mareike König ein hilfreiches Tutorial geschrieben, dass sich gut auf meinen Einsatzzweck übertragen liess.
Des weiteren haben wir uns intern verständigt, wofür wir “KI” einsetzen möchten und wie wir die Nutzung in unseren Arbeitsmaterialien kennzeichnen möchten. Mit der Hilfe des KI-Policy-Generators der Uni Bamberg haben wir uns auf die folgende Formulierung geeignet:
“We may use AI tools to assist with some or all of the following tasks as needed:
- Planning course structure and content.
- Creation and revision of teaching materials (e.g. slides, summaries, visualisations).
- Generation of exercises, quizzes or case studies.
- Optimisation of tasks or descriptions.
- Translations
All content created or edited in this way is carefully checked and selected by us.”
Ich gehe die Punkte einfach einmal der Reihe nach durch:
1. Planung von Kursstruktur und Inhalten
In der Regel haben alle an der Erstellung eines Kurses beteiligten Personen gemeinsam die Themen der Kursmodule erarbeitet und mit den entsprechenden Lernzielen unterfüttert. Danach hatte ich schon eine ziemlich genaue Vorstellung über Inhalt und Struktur.
LLMs dienten mir nur als gedanklicher Sparring-Partner – ist der geplante Aufbau der Zielgruppe angemessen? Bedient es das richtige Komplexitätslevel/Schwierigkeitsgrad? Fehlt etwas? Hilfreich, wenn man alleine im Home-Office sitzt – hätte aber genauso gut von Kolleg:innen übernommen werden können.
2. Erstellung und Revision von Kursmaterialien (Folien, Zusammenfassungen, Visualisierungen)
Eins vorweg: ich hege eine persönliche Abscheu vor “KI”-generierten Bildern. Ich mag sie nicht, ich finde sie zumeist unkreativ, banal, hässlich (und ja, natürlich auch manchmal fehlerhaft.) Ich habe ein einziges Bild für einen Blogpost generieren lassen und ich schäme mich immer noch dafür – sobald ich Zeit finde, werde ich es austauschen.
Daher: Ich selbst habe keine “KI”-generierten Illustrationen genutzt.
Auch das Design oder Layout von Folien habe ich selbst erstellt – die Erstellung von Folien gehört bei mir zum Revisionsprozess, und den gebe ich nicht aus der Hand. Plus: siehe oben – “KI”-generierte Folien sind nicht schöner als meine selbst erstellten, nur anders hässlich. Da ich in jedem Fall die Verantwortung trage, möchte ich lieber für selbstverursachte Mängel haften als für fremde.
Anders ist es bei “KI”-generierten Zusammenfassungen: Allerdings funktionieren sie am besten, wenn der Ausgangstext einer bestimmten, von der amerikanischen Schreibpraxis geprägten Struktur folgt – und das ist für deutschsprachige Texte nicht unbedingt optimal.
In jedem Fall muss die generierte Zusammenfassung streng überprüft und oft mehrfach revidiert werden – das kann helfen, kann aber auch mehr Arbeit machen, als es gleich selbst zu machen. Ich habe es nach Tagesform entschieden.
Ähnlich ist es bei der Erstellung von Lehrmaterial – hier: inhaltlich-fachliche Skripte.
Ich kenne Menschen, die sich von einem weißen Blatt Papier lähmen lassen – und die LLM bitten, einen ersten Aufschlag zu machen. Diesen Menschen fällt es leichter, einen Text zu korrigieren oder zu editieren als ganz neu anzufangen. Wer also lieber revidiert als schreibt, möchte vielleicht so vorgehen. Allerdings trainiert das Editieren von Texten einen völlig anderen “Schreib-Muskel” als das Schreiben.
Ich persönlich schreibe lieber selbst, als einer “KI” Feedback zu geben – zumal das LLM durch mein “Feedback” nichts “lernt”, mein Aufwand also keine Investition ist, die sich langfristig auszahlt.
Dazu kommt: bis ich einen Prompt erstellt hätte, der den benötigten Kontext, die gewünschte fachliche Tiefe, und den Anschluss an vorangehende oder nachfolgende Kurselemente berücksichtigt hat, hätte ich die Struktur des Textes schon selbst geschrieben und müsste “nur noch” ausformulieren.
Auch die grundlegenden inhaltlichen Recherchen hätte ich zu diesem Zeitpunkt längst fertig, denn es braucht ein solides Grundwissen der Thematik, um “KI”-erstellte Texte zu evaluieren und auf Fehler, Lücken und “Halluzinationen” zu prüfen – und ja, eine genaue Prüfung ist in jedem Fall nötig. Für die Erstellung von Lehrmaterialien – nicht im Sinne von: “hier ist ein Lernziel, schreib mir einen Text” – habe ich ChatGPT und Co also auch nicht benutzt.
ABER: Als Revisionstool für Formulierungen, “Text-Flow” oder Lücken fand ich die Chatbots sehr hilfreich. Ich habe mir regelmäßig von LLM Feedback für einer Textstruktur oder eines ersten (oder zweiten) Entwurf eines Skripts oder Textabschnitts geben lassen.
(Für die fachliche Revision der Inhalte hingegen vertraue ich nach wie vor eher dem peer-review einer/einem menschlichen Fachkolleg:in – darauf kann und will ich nicht verzichten.)
Meine Revisions-Prompts enthielten Informationen zum Kontext (ein Selbstlernkurs zum Thema X), zum Inhalt (das Lernziel laut Lernzielmatrix inklusive des Bloomschen Level) und natürlich den Textentwurf.
Dazu kam dann der Auftrag, den Entwurf begründet zu evaluieren – z. B. auf Angemessenheit, auf Vollständigkeit/Lücken oder bezüglich des sprachlichen Flows oder der Struktur. Falls das Feedback des Chatbots aufwendige Änderungen erforderte, habe ich auch nach Verbesserungsvorschlägen gefragt.
3. Erstellung von Übungen, Quizzen oder Fallbeispielen
Dies ist wahrscheinlich mein wichtigster Anwendungsfall.
Zu vielen Inhalten habe ich mir z. B. Praxisbeispiele auf Basis unserer Personas vorschlagen lassen. Und ich habe mir zu jedem Lernziel-Skript passende Quizfragen erstellen lassen. Gerade für Single- oder Multiple-Choice-Fragen ist es leicht, Quizfragen mit den richtigen Lösungen aufzuschreiben – aber die falschen Lösungen, die man als Distraktor braucht, sind mühsam – hier glänzt die “KI”.
Praktisch ist auch, dass man die Quizfragen sofort als “H5P-Code” formatiert ausgeben lassen kann, so dass man sie sofort in den H5P-Editor kopieren kann. (Wie das geht, zeigt bspw. die Medienberatung Niedersachsen in einer Serie von Video-Tutorials.) Das spart viel Zeit und Mühe.
Dennoch muss auch hier natürlich immer sorgfältig geprüft werden ob die Praxisbeispiele realistisch sind, ob die Quizfragen auf Basis des Textes auch beantwortet werden können, und ob die Lösungen wirklich korrekt sind.
4. Optimierung von Aufgaben oder Beschreibungen
Dies fällt wahrscheinlich in den oben beschriebenen Bereich des Feedbacks bezüglich Textflow, Angemessenheit für das geplante Vertiefungslevel und Verständlichkeit/Anschaulichkeit von Aufgaben und Beschreibungen, die mein Haupt-Anwendungsfall waren.
5. Übersetzungen
Für alle Übersetzungen habe ich DeepL genutzt. Abhängig davon, ob ich mein Skript auf deutsch erstellt und dann übersetzt habe, oder gleich auf englisch geschrieben habe, habe ich komplette Absätze übersetzen lassen oder nur einzelne Formulierungen gesucht.
Aber auch hier habe ich den Output natürlich nicht unbesehen übernommen, sondern geprüft, gelegentlich nachbearbeitet, oder eine andere als die zuerst vorgeschlagene Formulierung gewählt. Das ist gerade bei Fachterminologie wichtig.
Zusammenfassung
Chatbasierte Large Language Models (LLM) sind kein zuverlässiges Recherchetool. Dafür ist die Qualität der Ergebnisse noch immer nicht konsistent genug – Quellen könnten falsch bewertet oder unzureichend kontextualisiert, Anwendungsfälle “halluziniert” und Referenzen “erfunden” sein. Jedweder Output muss immer sorgfältig geprüft werden.
Sie können aber ein hilfreiches Gegenüber für Revisionen sein oder um Schreibblockaden zu überwinden. Sie glänzen bei der Erstellung von Quizfragen, für die man neben einer richtigen auch mehrere falsche Antworten braucht.
Und sie sind eine große Unterstützung bei der Formulierung fremdsprachlicher Texte, besonders wenn sie nicht dem deutschen akademischen Sprachduktus unterliegen sollen.
Einwände
Skills atrophy – das Verlernen von Fähigkeiten aufgrund der Nutzung von “KI” – ist real.
Ich beobachte das an mir selbst: Wo ich vor 10 oder 20 Jahren fließend Fachdiskussionen auf Englisch führen konnte, verlasse ich mich jetzt zunehmend auf Online-Übersetzungen. Meine passiven Sprachkenntnisse sind noch da – ich kann noch immer alles verstehen, überprüfen, die bessere Übersetzung auswählen. Aber meine aktiven Sprachkenntnisse verkümmern – ich halte mich eben nicht mehr im englischsprachigen Ausland auf oder treffe Englisch-Muttersprachler. Gerade für Sprachen ist das ein lange bekanntes Phänomen.
Das Verkümmern von wenig genutzten Fähigkeiten ist also kein neues Phänomen – aber mit dem verbreiteten Aufkommen der “KI”-Chatbots wird das Konzept zunehmend auf weitere kognitive Bereiche übertragen: wer das Erstellen von Texten, Code oder Konzepten immer mehr von “KI” generieren lässt, kann die Resultate sicher noch bewerten und anpassen. Aber die kognitive Aufgabe der Revision unterscheidet sich von der der Kreation. Das sollte man wissen.
Auch kann, was kurzfristig schneller geht, langfristig aufwendiger sein – alles aufmerksam korrigieren zu müssen kann länger dauern als es gleich selbst “richtig” zu machen.
Zudem sollte man sich nicht darauf verlassen, dass die Nutzung der Modelle so günstig bleibt – unsere Workflows vom kostenfreien Zugang zu Chatbots abhängig zu machen, kann uns auch finanziell bald teuer zu stehen kommen. Ökologisch ist es ohnehin katastrophal, wie die Energiewende durch die Datenzentren unterlaufen wird.
Was die ethischen Einwände angeht: diese sind zahlreich, gut begründet und seit langem bekannt. Trotzdem nutze ich LLM, so wie hier geschildert. Mein moralisches Rückgrat ist offenbar leider flexibler als ich gedacht habe. Damit werde ich mich wohl noch einmal auseinandersetzen müssen.
Insgesamt nutze ich “KI”-Anwendungen mit sehr gemischten Gefühlen. Ich verstehe das große Potential und sehe konkrete, nützliche Anwendungsfälle, aber ich misstraue dem Hype und dem Versprechen von “einfachen” Lösungen. Ich glaube nicht an das Geschäftsmodell und grusele mich vor den ethischen und ökologischen Konsequenzen. Ich will weder das Denken noch das Lehren (oder Lernen) an eine Maschine delegieren und bin froh, dass ich meine Arbeit auch weiterhin ohne “KI”-Unterstützung erledigen könnte. Auch wenn es an manchen Stellen vielleicht etwas länger dauern würde.
Doch ich bin gespannt, wie sich das Feld entwickelt.
- KI-Policy-Generators der Uni Bamberg: https://web.psi.uni-bamberg.de/ki-policy-generator/v2.html
- Playlist der Medienberatung Niedersachsen: https://youtube.com/playlist?list=PLwKiLhXWbZzSDjqmvLj0t_Dnauk11bPlB&si=jY4mgZXl0V-NtDbH
- Tutorial von Mareike König zum Einsatz von LLM in den Digital Humanities: https://dhdhi.hypotheses.org/9197
- Einer von vielen Artikeln zu Skill Atrophy: https://www.psychologytoday.com/us/blog/the-algorithmic-mind/202603/adults-lose-skills-to-ai-children-never-build-them

Als wissenschaftliche Mitarbeiterin am DAI bin ich bei WiNoDa hauptsächlich für die Erstellung von Selbstlern-Kursen zur fachspezifischen Datenkompetenz zuständig.
Praxisorientiert und interaktiv – mein Ziel ist: weniger Fachjargon, mehr Aha-Effekt.
Denn Daten sind für alle da!
