Digital Learning Campus

Sondercluster

🌍 Global Perspectives Die Session präsentiert einen skalierbaren Ansatz der Universität Toronto, der durch das internationale Netzwerk „The Horde“ weltweit auf verschiedene Fachbereiche und Bildungssysteme transferiert werden soll. Die entwickelte App bietet dabei eine konkrete technische Grundlage für globale Pilotprojekte zur Ablösung traditioneller Multiple-Choice-Tests.

Zusammenfassung

Kontext

Der Vortrag von Steve Joordens (Universität Toronto) und Brian Harrington thematisiert den Paradigmenwechsel in der Hochschullehre durch generative KI. Traditionelle Multiple-Choice-Tests werden kritisiert, da sie primär oberflächliches Auswendiglernen abfragen und kritische Denkfähigkeiten vernachlässigen. Als Alternative präsentiert Joordens den Einsatz konversationsbasierter KI für mündliche Prüfungen, die ganzheitliches Lernen messen und gleichzeitig skalierbar sind. Der Ansatz zielt darauf ab, Prüfungsangst zu reduzieren und Innovationen in der Lehre zu fördern.

Kernaussagen

1. Kritik an Multiple-Choice-Prüfungen

Begrenzte Validität: Multiple-Choice-Tests messen vorwiegend Faktenwissen und flaches Memorieren, nicht jedoch Fähigkeiten wie kritisches Denken, Kreativität oder Anwendungskompetenz.
Lehr-Lern-Problem: Da Lehrende oft "auf den Test" unterrichten, führt dies zu einer Reduktion des Unterrichts auf auswendig lernbare Inhalte.
Skalierbarkeit vs. Qualität: Die objektive Bewertung großer Studierendenzahlen war der Hauptgrund für die Verbreitung von Multiple-Choice-Tests – trotz ihrer inhaltlichen Schwächen.

2. KI-gestützte mündliche Prüfungen als Alternative

Technische Umsetzung: Mit der KI-Agentin "Alicia" werden Studierende in Echtzeit zu ihrem Lernprozess befragt. Die KI übernimmt die Interviewführung, während menschliche Tutor:innen die Transkripte bewerten.
Skalierung: In einem Kurs mit 1.800 Studierenden konnten parallel bis zu 20 Gespräche gleichzeitig geführt werden. Die Studierenden buchten selbstständig Termine über das Lernmanagementsystem.
Akzeptanz: Eine Umfrage unter Studierenden ergab überwiegend positive Rückmeldungen (Schlagworte: gut, innovativ, engagierend). Negative Assoziationen (z. B. awkward, scary) waren seltener.

3. Anpassung der KI-Persönlichkeit

Standardmodus vs. Prüfungskontext: KI-Systeme sind standardmäßig auf "hilfreiche Assistent:innen" trainiert, die Nutzer:innen bestätigen und zufriedenstellen. Für Prüfungen wurde dieser Modus deaktiviert und durch spezifische Personas ersetzt (z. B. herausfordernde Interviewer:innen).
Beispiel "Angry Eddie": Eine KI für Deeskalationstrainings demonstriert, wie durch gezielte Persönlichkeitsprogrammierung realistische Gesprächssituationen simuliert werden können.
Flexible Einsatzszenarien: Die KI kann für verschiedene Fachbereiche und Kompetenzen angepasst werden (z. B. klinische Interviews in der Pflegeausbildung).

4. Reduzierung von Prüfungsangst und soziale Kompetenzen

Problemdiagnose: Über 50 % der Studierenden in Joordens’ Kurs zeigten klinisch relevante soziale Ängste, verbunden mit der Angst vor negativer Bewertung. Ursache ist u. a. die Dominanz textbasierter Kommunikation (Messenger-Dienste) im Alltag.
Lösungsansatz: KI-Gesprächspartner:innen dienen als sicherer Übungsraum, um Kommunikationsfähigkeiten zu trainieren, bevor diese in menschlichen Interaktionen angewendet werden.
Forschungsergebnisse: Die Korrelation zwischen sozialer Angst und der Angst vor Bewertung unterstreicht den Bedarf an niedrigschwelligen Trainingsmöglichkeiten.

5. Forschungsnetzwerk und Validierung

Gemeinschaftlicher Ansatz ("The Horde"): Ein Netzwerk aus Lehrenden soll gemeinsam Anwendungsfälle entwickeln und die Validität, Reliabilität und Fairness der KI-Assessments nachweisen.
Aktueller Stand: Die KI führt derzeit nur Interviews durch; die Bewertung erfolgt durch menschliche Tutor:innen. Langfristig könnte die KI auch Bewertungen übernehmen, mit Option auf menschliche Nachkontrolle.
Offene Fragen: Themen wie Barrierefreiheit (z. B. für Studierende mit Behinderungen) oder Betrugsprävention (z. B. durch externe KI-Hilfen) werden aktiv erforscht. Ein "Red Team" aus Studierenden testet gezielt Schwachstellen.

Fazit

Joordens plädiert für einen schrittweisen Ausstieg aus Multiple-Choice-Prüfungen zugunsten KI-gestützter mündlicher Assessments. Diese ermöglichen eine ganzheitlichere Bewertung von Lernprozessen, fördern Innovationen in der Lehre und reduzieren Prüfungsangst. Um den Ansatz zu etablieren, sind jedoch weitere Forschung und die Zusammenarbeit mit Lehrenden weltweit notwendig. Interessierte können sich dem Netzwerk "The Horde" anschließen oder die entwickelte App (parallels.talklab.ca) testen.

Handlungsempfehlung:

Lehrende sollten den Einsatz konversationsbasierter KI für Prüfungen prüfen, insbesondere in Fächern mit hohem Praxisbezug (z. B. Medizin, Pflege).
Institutionen können Pilotprojekte starten, um die Skalierbarkeit und Akzeptanz des Ansatzes zu evaluieren.
Die Forschung sollte sich auf die Validierung der Methode und die Lösung offener Fragen (z. B. Barrierefreiheit) konzentrieren.

Fragen & Antworten

Auf welcher Basis erfolgt die Bewertung der mündlichen Prüfungen?

Die KI wird auf die Werke von Experten für faire und gerechte mündliche Lernkontrollen trainiert. Die konkrete Bewertung der Transkripte erfolgt derzeit jedoch noch durch menschliche Tutor:innen und nicht durch die KI.

Wie kann verhindert werden, dass Studierende externe Hilfen oder eine andere KI nutzen, um das Gespräch zu führen?

Da die Interaktion in Echtzeit erfolgt, ist Betrug schwieriger als bei schriftlichen Tests; ein 'Red Team' aus Studierenden konnte bisher keine erfolgreichen Betrugsmethoden finden. Zusätzlich könnte die Aktivierung der Videokamera sicherstellen, dass die Person selbst spricht.

Wie wird das Tool konfiguriert bzw. gepromptet?

Die Standard-Persönlichkeit des 'hilfreichen Assistenten' wird überschrieben und durch eine spezifische Persona ersetzt, die die Studierenden herausfordert. Über eine App können Lehrende die Aufgabenstellung, die gewünschte Interaktionsweise und spezifische Leitplanken definieren.

Für welche Studienprogramme eignet sich dieser Ansatz am besten?

Besonders in der Pflegeausbildung (Nursing) wird der Ansatz geschätzt, da Multiple-Choice-Tests dort die Lernziele oft nicht ausreichend erfassen. Grundsätzlich ist das System jedoch fachübergreifend einsetzbar.

Kann das Tool in Lernmanagementsysteme wie Moodle integriert werden?

Die Integration ist derzeit in Arbeit; das Tool wird LTI-kompatibel entwickelt, um eine Einbindung in verschiedene Lernmanagementsysteme zu ermöglichen.

Diagramm

100%

mindmap
  root)KI-basierte mündliche Lernkontrollen(
    ["Kritik an Multiple-Choice-Prüfungen"]
      ["Begrenzte Validität"]
      ["Lehr-Lern-Problem"]
      ["Skalierbarkeit vs. Qualität"]
    ["KI-gestützte mündliche Prüfungen"]
      ["Technische Umsetzung"]
      ["Skalierung"]
      ["Akzeptanz"]
    ["Anpassung der KI-Persönlichkeit"]
      ["Standardmodus vs. Prüfungskontext"]
      ["Beispiel 'Angry Eddie'"]
      ["Flexible Einsatzszenarien"]
    ["Reduzierung von Prüfungsangst"]
      ["Problemdiagnose"]
      ["Lösungsansatz"]
      ["Forschungsergebnisse"]
    ["Forschungsnetzwerk und Validierung"]
      ["Gemeinschaftlicher Ansatz"]
      ["Aktueller Stand"]
      ["Offene Fragen"]

AI-Based Oral Assessments of Learning: RIP Multiple Choice Exams