Un chatbot qui rit, plaisante et chante : Open AI présente GPT-4o
Le nouveau modèle d'IA d'Open AI est conçu pour être un compagnon personnel d'IA. Grâce à l'appareil photo du smartphone, le logiciel interprète l'environnement et peut réagir en conséquence.
Open AI a présenté lundi soir son nouveau modèle de langage GPT-4o. Dans le live stream, trois membres du personnel ont fait la démonstration de plusieurs fonctionnalités du modèle.
GPT-4o s'appuie sur les capacités du modèle d'IA actuel GPT-4, mais tente désormais de reconnaître et d'exprimer les émotions. Elle réagit à l'environnement à l'aide de la vidéo et de l'audio. L'IA devrait ainsi être en mesure d'engager des conversations approfondies. Elle aurait également amélioré ses temps de réaction. Ainsi, selon Open AI, les conversations semblent plus naturelles.
Aide à l'apprentissage, traduction en temps réel et assistance personnelle
Sur le site web d'Open AI, il y a quelques vidéos de démonstration qui visent à démontrer les capacités de GPT-4o. Dans ces vidéos, on peut voir l'IA agir comme un traducteur en temps réel dans des conversations multilingues, donner des conseils utiles à un élève pour ses devoirs de maths, réagir à des événements dans le champ de vision de la caméra et interagir avec d'autres clients GPT-4o. Il est par exemple impressionnant de voir une IA sans accès à la caméra parler à une autre IA avec caméra et l'interroger sur son environnement. L'IA peut également animer des conversations ou des jeux comme Pierre, Ciseaux, Papier.
Dans cette vidéo, vous pouvez voir comment deux IA interagissent sur la base d'instructions humaines :
Open AI entend ainsi positionner GPT-4 comme un interlocuteur à part entière, capable de réagir à l'environnement et au déroulement d'un dialogue. On voit bien que le modèle a été entraîné à la conversation : L'IA répond avec vivacité, rit et réagit par de petites plaisanteries sans y être invitée. Elle répond aux bonnes nouvelles avec excitation et joie, et aux humeurs déprimées avec empathie. Il est également possible de faire en sorte que GPT-4o ne réponde que de manière sarcastique, qu'elle parle plus vite ou plus lentement ou avec des intonations dramatiques, voire qu'elle chante.
Ici, Open AI présente comment GPT-4o peut aider un élève à apprendre les mathématiques :
Un modèle d'IA pour tous les processus
Il était déjà possible de parler avec ChatGPT. Pour cela, trois modèles d'IA différents étaient nécessaires. Open AI décrit ainsi le processus sur le site web de l'entreprise : Un modèle vocal convertissait le langage parlé en texte et le fournissait à GPT, le véritable cerveau de l'IA. La réponse de GPT sous forme de texte était reproduite sous forme de parole par un autre modèle de langage.
Comme GPT ne disposait que du texte pur, de nombreuses informations ont été perdues lors du traitement : l'IA ne pouvait pas reconnaître la tonalité ou le bruit de fond de la locutrice, ni savoir si différents locuteurs étaient impliqués. Inversement, GPT ne pouvait pas exprimer d'émotions, rire ou même chanter à travers le porte-voix d'un modèle text-to-speech.
La grande nouveauté de GPT-4o est qu'un seul modèle d'IA prend en charge toutes les tâches. Il peut traiter, interpréter et réagir à des entrées multimodales, c'est-à-dire la parole, le texte, les images et l'audio.
Pour l'instant, disponible pour quelques-uns seulement
Pour le moment, GPT-4o n'est pas encore disponible pour le grand public. Dans un premier temps, selon le site web d'Open-AI, un "petit groupe de partenaires fiables" devrait avoir accès aux nouvelles capacités audio et vidéo de l'IA. A moyen terme, les utilisateurs disposant d'un compte GPT gratuit devraient également pouvoir utiliser GPT-4o, mais avec des performances limitées par rapport au compte Plus.
Pour les développeurs, il devrait y avoir des ajustements au niveau des prix : Open AI indique que GPT-4o sera deux fois plus rapide et deux fois moins cher que le modèle phare précédent, "GPT-4 Turbo".
Aussi à l'aise devant un PC gaming que dans un hamac au fond du jardin. Aime l'Empire romain, les porte-conteneurs et les livres de science-fiction. Traque surtout les news dans le domaine de l'informatique et des objets connectés.