Benchmark « Connaissance intégrée : Culture générale française »
La maîtrise d’une langue ne se limite pas à la connaissance des mots et des règles grammaticales. Elle véhicule une culture, reflète une histoire, des valeurs, des traditions et des concepts politiques. Par exemple, on ne peut pas comprendre des textes de politique française sans savoir ce que sous-entendent « Bercy », « Quai d’Orsay », « Mai 68 », etc.
Nous avons l’impression que les meilleurs LLMs s’expriment correctement en français. Mais maîtrisent-ils vraiment la culture générale française, et in fine la langue française ?
En l’absence de benchmark sur ce sujet, nous avons réalisé un comparatif des performances des principaux LLM ouverts et propriétaires sur leur connaissance relative de la culture générale française. Voici les résultats de notre benchmark :
Méthodologie
Nous avons créé notre propre dataset sur les thématiques de la culture générale française. Notre approche a été de couvrir des domaines de connaissances suffisamment larges et variés afin d’avoir un aperçu des performances de chacun des modèles : Histoire, Langue française, Géographie, Art, Musique, Cinéma, Sport, Gastronomie et Traditions, fêtes et coutumes.
Chacun des thèmes regroupe des questions, comportant des jeux de mots et expressions françaises afin de pousser les modèles dans leurs retranchements.
Quelques exemples :
- Thème Histoire : « À quelle période correspondent les Trente Glorieuses ? »
- Thème Géographie : « Combien de tonnes d’uranium ont-été extraites en France en 2020 ? »
- Thème Sport : « A quand remonte la création de la grande boucle ?
- Thème Gastronomie : « Quel est le plat typique servi dans les brasseries de la côte d’Opale ? »
- Thème Cinéma : « Dans quel film retrouve-t-on la réplique “Il est l’or de se réveiller Monseignor” ? »
- Thème Fêtes : « Quel jour de l’année de nombreux concerts ont lieu dans les rues en France ? »
Toutes les questions ont été choisies et rédigées par nos soins. Si elles ne sont pas exhaustives, elles permettent d’établir un classement relatif.
Après un procédé d’évaluation automatique, une relecture humaine a été effectuée pour vérifier la pertinence des réponses des LLMs.
Résultats détaillés
A date, les modèles propriétaires sont nettement plus performants que les modèles ouverts (encore 34% d’écart). Il est important de noter que les modèles propriétaires dans ce benchmark sont aussi nettement plus volumineux en taille que les modèles ouverts.
- Les modèles ouverts tel que Mixtral 8x7b, Llama3 sont au niveau de GPT 3.5.
- Les scores des modèles français (à part Mistral) ne sont malheureusement pas très bons.
- Au niveau des thématiques, les bonnes performances des modèles sur le thème « Histoire » (77%) contrastent avec leurs performances plus faibles sur les thèmes « Arts/Musique/Cinéma », « Géographie », « Gastronomie » et « Sport ».
Les modèles open source ont encore beaucoup du mal à suivre les instructions (ex : donner la réponse dans un format précis). Pour se concentrer sur l’objectif de ce benchmark, nous avons corrigé manuellement toutes ces erreurs de forme.
Pourquoi les benchmarks by La Javaness ?
Quel LLM utiliser ? Cette question nous est posée à chaque lancement de projet d’IA générative et elle se repose à chaque mise à jour de l’application.
Pour quelques rares simples POCs sans enjeu de volumétrie et surtout de confidentialité de données (RGPD, Cloudact), la réponse est facile : l’un de ces GPT4, Mistral, Gemini, etc. Pour les autres, il faut naviguer dans une jungle de modèles (3000+ à date) de différents tailles, licences, considérations éthiques, caractéristiques techniques, caractéristiques des datasets d’entraînement, etc.
- Llama3 ou mistral ?
- Personne ne parle plus de Falcon ? Bloom ?
- Que vaut le nouveau phi3 dont tout le monde parle ?
- Que valent les modèles développés par des entreprises françaises ?
Le choix n’est pas évident.
Les benchmarks existants
Les grands benchmarks publiques (exemple) sont saturés, critiqués pour leur qualité et surtout ils sont sujets aux gamifications. Il y a un risque non négligeable que certains modèles aient (involontairement ou pas) appris sur les données de ces benchmarks, ou plus subtilement sur les données générées, similaires à ces benchmarks.
La loi de Goodhart (Goodhart’s Law) résume parfaitement la situation : When a measure becomes a target, it ceases to be a good measure (quand la mesure devient la cible, elle cesse d’être une bonne mesure).
Prenant une autre approche, Chat Arena est très utile et beaucoup plus fiable, mais il n’est pas adapté pour toutes les évaluations. Et il comporte aussi ces propres limites et biais.
Les benchmarks publics sont en plus très centrés sur la langue et le monde anglophone.
Nos benchmarks by LJN
Pour les besoins de nos projets, nous avons construit au cours du temps différents benchmarks privés, pour évaluer différents aspects des modèles :
- Connaissance intégrée : Culture générale française, jargon métier d’une entreprise
- Capacité à suivre les instructions
- Capacité de code (python, SQL, bash, git, etc)
- Capacité de maths et logiques
- Hallucination
Toutes les questions sont préparées avec soin par nos équipes, la plupart du temps en lien avec nos projets réalisés. En plus de l’évaluation automatique, nous avons pris soins de relire manuellement toutes les réponses pour éviter les risques d’erreur d’appréciation.
Nous allons continuer à partager les résultats des autres benchmarks dans les semaines à venir. Il s’agit d’un travail en amélioration continue, les mises à jour de tables de résultat seront publiées au fur et à mesure (intégration d’autres modèles ou bug fixes).
Pour les raisons expliquées dans la section précédente : la liste des questions ne sera pas publiée. Si vous être producteur de modèles LLM et souhaitez intégrer vos modèles dans ces benchmarks, n’hésitez pas à nous contacter.