OpenAI donne à ChatGPT une voix pour répondre aux invites et aux commandes

OpenAI donne à ChatGPT une voix pour répondre aux invites et aux commandes
Des lecteurs comme vous aident à soutenir MUO. Lorsque vous effectuez un achat en utilisant des liens sur notre site, nous pouvons gagner une commission d'affiliation. En savoir plus.

ChatGPT est en passe de devenir une expérience interactive d’IA générative. OpenAI a révélé que le premier chatbot IA au monde sera capable de parler et de répondre aux requêtes des utilisateurs en utilisant une voix synthétisée, vraisemblablement générée par l'IA.





Parallèlement à sa nouvelle voix, ChatGPT sera également en mesure de répondre et de discuter d'images spécifiques téléchargées sur lui ou prises lors de l'utilisation de l'application ChatGPT Android ou iOS. La fonction de reconnaissance d'image ressemble à celle de Google Lens et d'autres applications qui utilisent des réseaux de neurones pour détecter avec précision les données et les informations.





OpenAI donne une voix à ChatGPT

Le 25 septembre 2023, le développeur ChatGPT OpenAI révélé cela donnerait une voix à son chatbot d’IA générative de premier plan au monde. Les utilisateurs de ChatGPT peuvent parler directement au chatbot et lui demander de répondre, permettant ainsi à ChatGPT de converser directement avec la voix pour la première fois.





L'exemple de clip d'OpenAI présente une femme demandant à ChatGPT de créer une histoire unique au coucher, à laquelle ChatGPT répond dûment avec une voix synthétisée féminine.

Selon Filaire , le nouveau modèle de synthèse vocale a été développé en interne. Il peut générer un son « de type humain » à partir de texte et de quelques secondes d'échantillons de discours ( en utilisant le modèle OpenAI Whisper ) et parlez sur des tons et des styles variés. Vous pouvez trouver une gamme d'échantillons de voix sur Le blog d'OpenAI .



Certaines entreprises utilisent déjà le nouveau modèle vocal d'OpenAI. Par exemple, Spotify utilise le modèle de synthèse vocale d'OpenAI pour traduire des podcasts dans différentes langues, combinant les prouesses de ChatGPT en matière de traduction linguistique avec sa nouvelle capacité orale.

Le nouveau modèle de synthèse vocale de ChatGPT n'est disponible que pour les abonnés Plus et Enterprise utilisant les applications officielles Android et iOS et devrait être déployé dans les deux prochaines semaines (à partir du 25 septembre 2023). De plus, la nouvelle fonctionnalité vocale est initialement limitée à l’anglais, même si nous nous attendons à ce que cela change rapidement.





ChatGPT peut reconnaître et et photographies

La deuxième partie de la mise à jour ChatGPT d'OpenAI est la possibilité d'analyser et de parler des images téléchargées sur l'outil. L'option d'analyse d'image visuelle a été présentée dans les vidéos de mise à jour de GPT-4 mais n'a pas été beaucoup discutée depuis lors ( Interpréteur de code ChatGPT mis à part ).

Désormais, ChatGPT bénéficie de fonctionnalités similaires à Google Lens. Vous pouvez télécharger une image sur ChatGPT ou prendre une photo à l'aide de l'appareil photo de votre smartphone dans l'application ChatGPT, et elle détaillera l'image, ajoutant plus de contexte si nécessaire.





L'appeler 'similaire à Google Lens' est vraiment une injustice. La possibilité de discuter de l'image pour obtenir plus d'informations et de contexte la rend extrêmement utile pour un large éventail de paramètres. Cependant, il est important de noter les petits caractères, OpenAI indiquant clairement qu'il a limité la « capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes » pour des raisons de confidentialité et d'exactitude. Pourtant, un outil « Who Is This » alimenté par OpenAI pourrait-il être en préparation pour le futur ? (Espérons que non !)

Comme le nouveau modèle de synthèse vocale, OpenAI déploiera la reconnaissance d'images dans les deux prochaines semaines, même si elle sera disponible sur toutes les plateformes, pas seulement sur l'application ChatGPT.

accélérer le temps de démarrage windows 10

Confidentialité, sécurité et autres problèmes

Les implications d’un ChatGPT à commande vocale sont flagrantes. Bien sûr, c'est excitant. Cependant, la possibilité de créer une voix synthétisée de manière unique en utilisant simplement un court extrait comme exemple pose des problèmes considérables en matière de confidentialité et de sécurité. Le potentiel d’acteurs malveillants pour exploiter ces outils est énorme, et comme pour tout outil d’IA générative, une fois le génie sorti de la bouteille, il n’y retournera absolument plus. Aucune réglementation de l’IA émanant des gouvernements ou des leaders d’opinion ne peut revenir en arrière. la marée.

Même l'avertissement d'OpenAI sur le sujet semble contourner l'évidence malgré la mention des problèmes :

Cependant, ces capacités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants de se faire passer pour des personnalités publiques ou de commettre des fraudes. C'est pourquoi nous utilisons cette technologie pour alimenter un cas d'utilisation spécifique : le chat vocal.

Étant donné qu'il ne s'agit que de la pointe de l'iceberg, attendez-vous à des réactions négatives contre la nouvelle voix de ChatGPT, surtout lorsqu'il y aura une augmentation prévisible des gros titres peu recommandables affirmant que ChatGPT est utilisé pour commettre une fraude, etc.

OpenAI fait de ChatGPT l'application d'IA incontournable

Plus OpenAI ajoute des fonctionnalités conviviales à ChatGPT, plus il devient l'application d'IA générative incontournable. En tant que première à atteindre une renommée généralisée lors du boom initial de l'IA générative, ChatGPT ouvre toujours la voie et est la seule application quelque peu utilisée, malgré la concurrence de Google Bard (et potentiellement de Google Gemini) et de Claude d'Anthropic.

Tant qu'OpenAI pourra continuer à ajouter des fonctionnalités qui rendent ChatGPT plus facile à utiliser, il gardera les gens accros et se rapprochera toujours plus de son objectif d'un outil d'IA véritablement multimodal.