
En coulisse
7 questions et réponses sur DeepSeek
par Samuel Buchmann
Lors de la sortie de sa dernière IA, "Llama 4", Meta s'est vanté d'avoir obtenu des scores élevés sur une plateforme de benchmarking. Mais le modèle ne les atteint que dans une version spéciale qui n'est pas disponible.
Les performances des intelligences artificielles (IA) sont testées à l'aide de benchmarks. L'une des principales plateformes pour cela est LM Arena. Les bons résultats attirent l'attention - c'est le cas du nouveau "Llama 4" de Meta, que l'entreprise a publié ce week-end. Mais il est désormais clair que Meta a joué avec des cartes truquées afin de donner à son modèle la meilleure image possible. C'est ce que rapporte le portail "TechCrunch".
Dans son communiqué de presse, Meta met en avant le score ELO de 1417 de "Maverick" (le modèle de taille moyenne de la famille LLama-4). Ce score très élevé signifie que Maverick gagne souvent les duels de référence directe contre ses concurrents. Il suggère que le modèle de Meta est devant celui d'OpenAI 4o et juste derrière le leader actuel, Gemini 2.5 Pro de Google.
En conséquence, Maverick a fait des vagues au sein de la communauté. Il semblait que Meta allait jouer un rôle de premier plan, alors que ses modèles précédents étaient toujours à la traîne. Il s'avère maintenant que les développeurs n'ont pas utilisé la version publique de Maverick pour les benchmarks sur LM Arena, mais une "version de chat expérimentale". Mais cela n'a été mentionné qu'en petits caractères.
La pratique de Meta n'est pas explicitement contraire aux règles de LM Arena, mais bien à l'idée qui sous-tend la plateforme. En effet, les benchmarks perdent leur sens lorsque les développeurs mettent en compétition des versions spécialement optimisées de leurs modèles, qui ne sont disponibles nulle part parce qu'elles présentent d'autres inconvénients. Ainsi, les scores ne représentent plus la performance réaliste et ne sont plus utiles pour l'évaluation.
Cet épisode montre à quel point Meta est sous pression dans la course à l'IA. Surtout depuis l'arrivée sur le marché d'un deuxième modèle open-weight, le DeepSeek chinois. Avant son lancement, Llama 4 a été reporté à plusieurs reprises car il ne répondait pas aux attentes internes. Finalement, il est sorti un samedi (5 avril) au lieu du lundi suivant (7 avril) commeprévu à l'origine. Interrogé sur la raison, le PDG de Meta, Mark Zuckerberg, a rétorquésur Threads : "Ensuite, c'était prêt".
Mon empreinte digitale change régulièrement au point que mon MacBook ne la reconnaît plus. Pourquoi ? Lorsque je ne suis pas assis devant un écran ou en train de prendre des photos, je suis probablement accroché du bout des doigts au beau milieu d'une paroi rocheuse.