Classements de référence de l'IA
Que sont les benchmarks de l’IA ?
- Comme un examen pour les systèmes d’IA.
- Conçu pour évaluer une compétence spécifique de manière standardisée, aboutissant à un score permettant une comparaison entre les systèmes.
- Il s'agit d'une spécification du problème, d'un ensemble de données et d'un score défini. Les réponses correctes sont souvent appelées vérité fondamentale.
- Les benchmarks d'IA testent la qualité de la production d'IA des produits EdTech - une partie d'un cadre d'assurance qualité plus large.
Pourquoi les benchmarks d’IA sont-ils utiles ?
- Les repères d'IA fournissent une cible - pour les développeurs de modèles d'IA et les développeurs de produits EdTech - à mesurer et les aident à comprendre les faiblesses et à concentrer les améliorations.
- Les utilisateurs et les décideurs politiques peuvent voir les scores de performance, ce qui leur permet de choisir les systèmes d’IA à utiliser et de renforcer la confiance dans les résultats qu’ils reçoivent.
Quels sont les principaux défis dans le développement de références en matière d’IA dans l’éducation ?
- Approvisionnement en ressources pour l'ensemble de données, en particulier dans les contextes des pays à revenu faible et intermédiaire (PRFI), tels que les questions d'examen humaines existantes, les ressources d'apprentissage ou le travail des étudiants.
- Définir la notation (c'est-à-dire à quoi ressemble « bon » ?) face à des aspects ouverts et subjectifs de l'éducation.
Quels repères en matière d’IA avons-nous développés jusqu’à présent ?
- Le Benchmark Pédagogique – Les modèles d'IA réussissent bien aux examens, mais connaissent-ils la pédagogie et l'aide à l'apprentissage ? Nous avons créé le Benchmark Pédagogique pour voir si les modèles peuvent réussir les examens d'enseignants.
- Le repère pédagogique SEND - Une extension utilisant un ensemble de questions liées à la pédagogie spécifique aux besoins éducatifs spéciaux et aux handicaps (SEND).
- Le benchmark des mathématiques visuelles – Les modèles d'IA peuvent répondre à des tests mathématiques complexes, mais comment fonctionnent-ils avec les mathématiques visuelles, essentielles à l'apprentissage des premières années ? Nous testons précisément cela ici.
Nous avons besoin de votre aide !
Nous utilisons ces critères de référence pour défendre les intérêts des enfants des pays à revenu faible ou intermédiaire. Nous souhaitons que les développeurs de modèles d'IA sachent comment améliorer leurs modèles pour les contextes des pays à revenu faible ou intermédiaire. La meilleure façon d'y parvenir est d'utiliser des exemples concrets. Connaissez-vous des sources d'information pertinentes ? Par exemple, des exemples de travaux d'élèves de pays à revenu faible ou intermédiaire, des manuels de mathématiques de première année ou des compilations d'idées fausses courantes. Si oui, veuillez contacter alasdair.mackintosh@fabinc.co.uk.