Nouveautés + tendances

Meta prise en flagrant délit d'embellissement des benchmarks d'IA

9/4/2025

Traduction: traduction automatique

Lors de la sortie de sa dernière IA, "Llama 4", Meta s'est vanté d'avoir obtenu des scores élevés sur une plateforme de benchmarking. Mais le modèle ne les atteint que dans une version spéciale qui n'est pas disponible.

Les performances des intelligences artificielles (IA) sont testées à l'aide de benchmarks. L'une des principales plateformes pour cela est LM Arena. Les bons résultats attirent l'attention - c'est le cas du nouveau "Llama 4" de Meta, que l'entreprise a publié ce week-end. Mais il est désormais clair que Meta a joué avec des cartes truquées afin de donner à son modèle la meilleure image possible. C'est ce que rapporte le portail "TechCrunch".

Dans son communiqué de presse, Meta met en avant le score ELO de 1417 de "Maverick" (le modèle de taille moyenne de la famille LLama-4). Ce score très élevé signifie que Maverick gagne souvent les duels de référence directe contre ses concurrents. Il suggère que le modèle de Meta est devant celui d'OpenAI 4o et juste derrière le leader actuel, Gemini 2.5 Pro de Google.

En attendant, le classement de LM Arena déclare que le modèle de Meta en deuxième position est une version expérimentale.

En conséquence, Maverick a fait des vagues au sein de la communauté. Il semblait que Meta allait jouer un rôle de premier plan, alors que ses modèles précédents étaient toujours à la traîne. Il s'avère maintenant que les développeurs n'ont pas utilisé la version publique de Maverick pour les benchmarks sur LM Arena, mais une "version de chat expérimentale". Mais cela n'a été mentionné qu'en petits caractères.

Une pratique contraire à l'esprit des benchmarks

La pratique de Meta n'est pas explicitement contraire aux règles de LM Arena, mais bien à l'idée qui sous-tend la plateforme. En effet, les benchmarks perdent leur sens lorsque les développeurs mettent en compétition des versions spécialement optimisées de leurs modèles, qui ne sont disponibles nulle part parce qu'elles présentent d'autres inconvénients. Ainsi, les scores ne représentent plus la performance réaliste et ne sont plus utiles pour l'évaluation.

En coulisse
7 questions et réponses sur DeepSeek
par Samuel Buchmann

Cet épisode montre à quel point Meta est sous pression dans la course à l'IA. Surtout depuis l'arrivée sur le marché d'un deuxième modèle open-weight, le DeepSeek chinois. Avant son lancement, Llama 4 a été reporté à plusieurs reprises car il ne répondait pas aux attentes internes. Finalement, il est sorti un samedi (5 avril) au lieu du lundi suivant (7 avril) comme prévu à l'origine. Interrogé sur la raison, le PDG de Meta, Mark Zuckerberg, a rétorqué sur Threads : "Ensuite, c'était prêt".

Photo d’en-tête : Shutterstock

Cet article plaît à 10 personne(s)

Samuel Buchmann

Senior Editor

Samuel.Buchmann@digitecgalaxus.ch

Mon empreinte digitale change régulièrement au point que mon MacBook ne la reconnaît plus. Pourquoi ? Lorsque je ne suis pas assis devant un écran ou en train de prendre des photos, je suis probablement accroché du bout des doigts au beau milieu d'une paroi rocheuse.

Ces articles pourraient aussi vous intéresser

Nouveautés + tendances
Meta AI fait son apparition en Europe : un chatbot d'intelligence artificielle bientôt sur Facebook, Whatsapp & Co.
par Debora Pape
Nouveautés + tendances
On s'en doutait (en partie) : les collaborations streetwear les plus cool de l'année dernière
par Laura Scholz
Nouveautés + tendances
Google affiche désormais des textes générés par l'IA en réponse à vos questions
par Debora Pape