OpenAI, l’organisation à but non lucratif spécialisée en intelligence artificielle, vient d’annoncer qu’elle va très prochainement doter son programme de dialogue automatisé, ChatGPT, de deux nouvelles capacités: la parole et la vision. Ce développement majeur dans le domaine de l’IA signifie que les usagers du service seront en mesure de discuter oralement avec ChatGPT, mais aussi de lui soumettre des requêtes impliquant des images.
Pour exemple, cela pourrait signifier qu’un client pourrait photographier un monument, puis déclencher une conversation avec ChatGPT à propos de son histoire. De la même manière, un utilisateur pourrait montrer au programme les produits qu’il a dans son frigo pour que celui-ci lui propose une recette à réaliser. Ces nouvelles fonctionnalités seront disponibles pour les abonnés à ChatGPT Plus et pour les organisations qui sont clientes du service dans les deux prochaines semaines.
Il est intéressant de noter que OpenAI avait initialement annoncé l’arrivée de ces nouvelles capacités lors de la présentation de GPT-4, la dernière version du modèle de langage qui permet à ChatGPT de fonctionner. Au-delà de pouvoir traiter des requêtes en langage naturel, GPT-4 est multisupport, capable de traiter du texte, de l’audio, de la vidéo et bien sûr des images.
Cependant, l’expansion rapide de ces technologies non régulées suscite également une certaine préoccupation. Les IA, et ChatGPT en particulier, ont en effet tendance à « halluciner », c’est-à-dire à générer des réponses qui n’ont aucun fondement dans la réalité.
Le domaine de l’intelligence artificielle est en constante évolution, et il sera intéressant de suivre comment ces nouvelles capacités de ChatGPT seront utilisées dans un avenir proche.