Nivel
Tipo

Costo

10+ $/1 millón de tokens

El referente pedagógico

Los modelos de IA obtienen buenos resultados en los exámenes de estudiantes, pero ¿saben de pedagogía y de cómo ayudar a los estudiantes a aprender? Creamos el Benchmark de Pedagogía para comprobar si los modelos pueden aprobar los exámenes de docentes. A modo de comparación, también mostramos los resultados del benchmark MMLU, que evalúa los exámenes de estudiantes. Los porcentajes muestran cuántas preguntas respondió correctamente cada modelo. Saber más aquí.

Loading...
Cargando resultados....