Der Pädagogik-Benchmark

KI-Modelle schneiden bei Schülerprüfungen gut ab, aber verstehen sie auch etwas von Pädagogik und Lernförderung? Wir haben den Pädagogik-Benchmark entwickelt, um zu prüfen, ob Modelle Lehrerprüfungen bestehen. Zum Vergleich zeigen wir auch die Ergebnisse des MMLU-Benchmarks, der Schülerprüfungen testet. Die Prozentangaben zeigen, wie viele Fragen jedes Modell richtig beantwortet hat. Mehr erfahren Hier.