El referente pedagógico

Los modelos de IA obtienen buenos resultados en los exámenes de estudiantes, pero ¿saben de pedagogía y de cómo ayudar a los estudiantes a aprender? Creamos el Benchmark de Pedagogía para comprobar si los modelos pueden aprobar los exámenes de docentes. A modo de comparación, también mostramos los resultados del benchmark MMLU, que evalúa los exámenes de estudiantes. Los porcentajes muestran cuántas preguntas respondió correctamente cada modelo. Saber más aquí.