Ebene
[Für diesen Benchmark ist kein Levelfilter verfügbar]
Typ

Kosten

10+ $/1 Mio. Token

Der Visual Reasoning Benchmark

Wir haben unsere Arbeit zur visuellen Mathematik weiterentwickelt und verwenden nun Fragen aus Sambia und Indien, um KI-Modelle anhand nonverbaler Denkaufgaben zu testen – dem Schlüssel für grundlegende Rechenfähigkeiten, die einer „konkreten, bildlichen, abstrakten“ Methodik folgen. Wir haben den Visual Reasoning Benchmark entwickelt, um zu testen, ob KI-Modelle echte visuelle Fragen beantworten können, mit denen Grundschüler in LMICs konfrontiert sind. Mehr erfahren Hier.

Loading...
Ergebnisse laden....