Ebene
Typ

Kosten

10+ $/1 Mio. Token

Der Pädagogik-Benchmark

KI-Modelle schneiden bei Schülerprüfungen gut ab, aber verstehen sie auch etwas von Pädagogik und Lernförderung? Wir haben den Pädagogik-Benchmark entwickelt, um zu prüfen, ob Modelle Lehrerprüfungen bestehen. Zum Vergleich zeigen wir auch die Ergebnisse des MMLU-Benchmarks, der Schülerprüfungen testet. Die Prozentangaben zeigen, wie viele Fragen jedes Modell richtig beantwortet hat. Mehr erfahren Hier.

Loading...
Ergebnisse laden....