Shutterstock
Nouveautés + tendances

Meta prise en flagrant délit d'embellissement des benchmarks d'IA

Samuel Buchmann
9/4/2025
Traduction: traduction automatique

Lors de la sortie de sa dernière IA, "Llama 4", Meta s'est vanté d'avoir obtenu des scores élevés sur une plateforme de benchmarking. Mais le modèle ne les atteint que dans une version spéciale qui n'est pas disponible.

Les performances des intelligences artificielles (IA) sont testées à l'aide de benchmarks. L'une des principales plateformes pour cela est LM Arena. Les bons résultats attirent l'attention - c'est le cas du nouveau "Llama 4" de Meta, que l'entreprise a publié ce week-end. Mais il est désormais clair que Meta a joué avec des cartes truquées afin de donner à son modèle la meilleure image possible. C'est ce que rapporte le portail "TechCrunch".

Dans son communiqué de presse, Meta met en avant le score ELO de 1417 de "Maverick" (le modèle de taille moyenne de la famille LLama-4). Ce score très élevé signifie que Maverick gagne souvent les duels de référence directe contre ses concurrents. Il suggère que le modèle de Meta est devant celui d'OpenAI 4o et juste derrière le leader actuel, Gemini 2.5 Pro de Google.

En attendant, le classement de LM Arena déclare que le modèle de Meta en deuxième position est une version expérimentale.
En attendant, le classement de LM Arena déclare que le modèle de Meta en deuxième position est une version expérimentale.

En conséquence, Maverick a fait des vagues au sein de la communauté. Il semblait que Meta allait jouer un rôle de premier plan, alors que ses modèles précédents étaient toujours à la traîne. Il s'avère maintenant que les développeurs n'ont pas utilisé la version publique de Maverick pour les benchmarks sur LM Arena, mais une "version de chat expérimentale". Mais cela n'a été mentionné qu'en petits caractères.

Une pratique contraire à l'esprit des benchmarks

La pratique de Meta n'est pas explicitement contraire aux règles de LM Arena, mais bien à l'idée qui sous-tend la plateforme. En effet, les benchmarks perdent leur sens lorsque les développeurs mettent en compétition des versions spécialement optimisées de leurs modèles, qui ne sont disponibles nulle part parce qu'elles présentent d'autres inconvénients. Ainsi, les scores ne représentent plus la performance réaliste et ne sont plus utiles pour l'évaluation.

  • En coulisse

    7 questions et réponses sur DeepSeek

    par Samuel Buchmann

Cet épisode montre à quel point Meta est sous pression dans la course à l'IA. Surtout depuis l'arrivée sur le marché d'un deuxième modèle open-weight, le DeepSeek chinois. Avant son lancement, Llama 4 a été reporté à plusieurs reprises car il ne répondait pas aux attentes internes. Finalement, il est sorti un samedi (5 avril) au lieu du lundi suivant (7 avril) commeprévu à l'origine. Interrogé sur la raison, le PDG de Meta, Mark Zuckerberg, a rétorquésur Threads : "Ensuite, c'était prêt".

Photo d’en-tête : Shutterstock

Cet article plaît à 10 personne(s)


User Avatar
User Avatar

Mon empreinte digitale change régulièrement au point que mon MacBook ne la reconnaît plus. Pourquoi ? Lorsque je ne suis pas assis devant un écran ou en train de prendre des photos, je suis probablement accroché du bout des doigts au beau milieu d'une paroi rocheuse. 

Ces articles pourraient aussi vous intéresser

  • Nouveautés + tendances

    Meta AI fait son apparition en Europe : un chatbot d'intelligence artificielle bientôt sur Facebook, Whatsapp & Co.

    par Debora Pape

  • Nouveautés + tendances

    On s'en doutait (en partie) : les collaborations streetwear les plus cool de l'année dernière

    par Laura Scholz

  • Nouveautés + tendances

    Google affiche désormais des textes générés par l'IA en réponse à vos questions

    par Debora Pape

3 commentaires

Avatar
later