Découvrez les dernières innovations en IA avec GPT-4o et Gemini 1.5 Pro !
La semaine dernière, OpenAI et Google ont annoncé des mises à jour de leurs modèles d’IA générative respectifs, GPT-4o et Gemini 1.5 Pro, dotées de nouvelles interfaces et fonctionnalités. Il n’est pas toujours facile de comprendre les distinctions entre ces modèles, non seulement entre le ChatGPT d’OpenAI et le Gemini de Google, mais aussi entre tous leurs concurrents.
A lire aussi :
- ChatGPT-4o Gratuit : Faut-il Encore Investir dans ChatGPT Plus ?
- ChatGPT-4o : Plus Intelligent, Plus Rapide, et Maintenant Gratuit Voici comment en profiter !
Les différences essentielles
Les différences existent bel et bien et le meilleur moyen de les illustrer est de comparer ces derniers modèles. Pour cela, nos confrères de CNET.com ont sollicité un expert de la Silicon Valley qui a tenu à garder l’anonymat car il n’est pas autorisé à s’exprimer publiquement.
« Dans ma tête, c’est comme Coke et Pepsi. Vous voyez ce que je veux dire ? », a-t-il déclaré à propos de GPT-4o et Gemini 1.5 Pro.
Le Coca et le Pepsi sont tous deux des colas, mais ils sont fabriqués avec des formules différentes et, comme tout amateur de ces boissons vous le dira, ils n’ont pas le même goût. GPT-4o et Gemini 1.5 Pro sont tous deux des modèles de langage avancés, conçus pour comprendre les requêtes et générer des réponses qui semblent avoir été écrites par un humain. Mais les réponses de ChatGPT ne sont pas exactement comme celles de Gemini. Elles sont identiques, mais différentes.
Intégration et compatibilité
GPT-4o est conçu pour s’intégrer aux produits Microsoft, mais fonctionne également de manière autonome. Gemini 1.5 Pro est conçu pour Google.
Les deux modèles proposent des versions gratuites et des abonnements. ChatGPT Plus et Gemini Advanced coûtent chacun 20 dollars par mois et donnent accès aux modèles les plus récents et à davantage de fonctionnalités.
Et tout comme on peut préférer le goût d’un cola à celui d’un autre, c’est vraiment à l’utilisateur de faire son choix entre ces deux IA génératives, en fonction de ses besoins et préférences. Voici un aperçu plus détaillé des performances de GPT-4o et de Gemini 1.5 Pro.
Fenêtres contextuelles
La semaine dernière, Google a annoncé que Gemini 1.5 Pro s’étendait à une fenêtre contextuelle de 1 million de tokens, avec la promesse de doubler à 2 millions de tokens dans le courant de l’année. (Il a été lancé avec une fenêtre contextuelle de 128 000 jetons en février). Le GPT-4o et l’ancien GPT-4, quant à eux, ont des fenêtres contextuelles de 128 000 jetons. Qu’est-ce que cela signifie ?
La fenêtre contextuelle est la portion de texte qu’un modèle de langage peut prendre en compte pour générer une réponse, un peu comme sa mémoire. Plus la fenêtre contextuelle est grande, plus le modèle peut se souvenir de conversations antérieures, ou plus il peut ingérer de mots, de vidéos, de sons ou de lignes de code qu’on lui soumet. Gemini a donc une capacité beaucoup plus importante à ce stade.
Mais lorsqu’il s’agit de paramètres…
Ni OpenAI ni Google n’ont grand-chose à dire sur les paramètres. De quoi s’agit-il ?
Tout d’abord, un petit rappel sur les tokens ou jetons. Les grands modèles de langage décomposent les requêtes en jetons afin de les traiter et de fournir des réponses. Les tokens peuvent être aussi courts qu’un caractère ou aussi longs qu’un mot. Ainsi, dans l’exemple « Bonjour, lecteur », un jeton peut être « bonjour » et l’autre « lecteur ». Les paramètres déterminent la capacité du modèle à traiter ces jetons et à générer du texte avec précision.
On peut également considérer les paramètres comme les neurones du cerveau. Plus il y a de neurones, plus les pensées peuvent être complexes. Il en va de même pour les paramètres.
Accès à l’information
Les grands modèles de langage ont des seuils de connaissance. En d’autres termes, leurs données d’apprentissage ne comprennent que des informations jusqu’à un certain point dans le temps. Pour GPT-4o, le seuil de connaissance est fixé à octobre 2023. Pour Gemini, c’est « début 2023 ».
Outre le fait que son outil est formé sur des données plus récentes, OpenAI a signé des accords avec la plateforme sociale Reddit et le groupe audiovisuel News Corp pour accéder à un contenu plus actuel.
Langues
GPT-4o est disponible en 50 langues. Gemini 1.5 Pro est disponible en 35 langues.
Toutefois, compte tenu des 18 années d’expérience de Google Translate, Google dispose potentiellement de beaucoup plus de données pour former ses modèles aux capacités multilingues.
C’est quoi la certification Google EDLA pour les écrans interactifs ?
Interfaces
Une dernière similitude : Les deux modèles ont récemment introduit des fonctionnalités pour devenir plus conversationnels. Pour ChatGPT-4o, il s’agit d’une nouvelle interface qui permet de parler au chatbot ou de partager des séquences vidéo en direct. (Il utilise la phrase « Hey, ChatGPT »). Vous pouvez interrompre le modèle et celui-ci peut même percevoir vos émotions.
Pour sa part, Google vient de lancer Gemini Live, qui permet de converser avec l’IA. On peut également interrompre Gemini Live.