KI-Benchmark-Bestenlisten

Was sind KI-Benchmarks?

  1. Wie eine Prüfung für KI-Systeme.
  2. Entwickelt, um eine bestimmte Fähigkeit auf standardisierte Weise zu bewerten, woraus sich eine Punktzahl ergibt, die einen Vergleich zwischen Systemen ermöglicht.
  3. Bestehen aus einer Problemspezifikation, einem Datensatz und einer definierten Punktzahl. Richtige Antworten werden oft als Grundwahrheit bezeichnet.
  4. KI-Benchmarks testen die Qualität der KI-Ausgabe von EdTech-Produkten – ein Teil eines umfassenderen Qualitätssicherungsrahmens .

Warum sind KI-Benchmarks nützlich?

  1. KI-Benchmarks bieten Entwicklern von KI-Modellen und EdTech-Produkten ein Ziel, an dem sie sich messen können, und helfen ihnen, Schwächen zu erkennen und gezielt Verbesserungen vorzunehmen.
  2. Benutzer und politische Entscheidungsträger können Leistungswerte einsehen, was ihnen die Auswahl der zu verwendenden KI-Systeme ermöglicht und das Vertrauen in die erhaltenen Ergebnisse stärkt.

Was sind die größten Herausforderungen bei der Entwicklung von KI-Benchmarks im Bildungsbereich?

  1. Beschaffung von Ressourcen für den Datensatz, insbesondere aus Ländern mit niedrigem und mittlerem Einkommen (LMIC), wie z. B. vorhandene Prüfungsfragen für Menschen, Lernressourcen oder studentische Arbeiten.
  2. Definieren der Bewertung (d. h. wie sieht „gut“ aus?) bei offenen, subjektiven Aspekten der Bildung.

Welche KI-Benchmarks haben wir bisher entwickelt?

  1. Der Pädagogik-Benchmark – KI-Modelle schneiden bei Schülerprüfungen gut ab, aber verstehen sie auch etwas von Pädagogik und wie sie Schüler beim Lernen unterstützen? Wir haben den Pädagogik-Benchmark entwickelt, um zu prüfen, ob Modelle Lehrerprüfungen bestehen.
  2. Der SEND-Pädagogik-Benchmark – Eine Erweiterung mit einem Fragensatz zur spezifischen Pädagogik für besondere pädagogische Bedürfnisse und Behinderungen (SEND).
  3. Der Visual Maths Benchmark – KI-Modelle können komplexe Mathematiktests beantworten, aber wie gut schneiden sie bei visueller Mathematik ab, die für das Lernen in den ersten Schuljahren von entscheidender Bedeutung ist? Hier testen wir genau das.

Wir brauchen Ihre Hilfe!

Wir nutzen diese Benchmarks, um die Interessen von Kindern in LMICs zu vertreten – wir möchten KI-Modellentwicklern zeigen, wo sie ihre Modelle für LMIC-Kontexte verbessern können. Der beste Weg hierfür ist die Verwendung von Beispielen aus der Praxis. Kennen Sie relevante Informationsquellen, die Ihnen helfen können? Zum Beispiel Beispiele von Schülerarbeiten aus LMICs, Mathematikbücher für die ersten Schuljahre oder Zusammenstellungen häufiger Missverständnisse. Wenden Sie sich bitte an alasdair.mackintosh@fabinc.co.uk.

Zurück nach oben