OpenAI améliore ses modèles audio pendant qu'Anthropic connecte Claude AI au Web

Data / IA

OpenAI lance de nouvelles API audio et Anthropic connecte Claude au Web

Par Laurent Delattre, publié le 21 mars 2025

Quand l’IA commence à mieux écouter, mieux parler et mieux chercher, c’est tout notre rapport aux agents intelligents qui change. OpenAI et Anthropic annoncent de nouvelles fonctionnalités pour étendre encore un peu plus l’usage des IA en entreprise.

ChatGPT d’OpenAI et Claude AI d’Anthropic sont sans doute aujourd’hui les deux meilleurs assistants conversationnels du marché, même si Le Chat de Mistral AI, Gemini de Goole, Copilot de Microsoft et Grok de xAI ont aussi leurs qualités et même si Meta AI arrive enfin en Europe dans les prochains jours.

Force est de reconnaître que tous ces assistants ne cessent d’évoluer et s’enrichissent de capacités nouvelles quasiment toutes les semaines. Ils se sont imposés dans le quotidien de tous, notamment dans les contextes professionnels et malgré les défis de confidentialité qu’ils peuvent engendrer.

Cette semaine, OpenAI et Anthropic ont inauguré de nouveaux outils IA qui, une nouvelle fois, pourraient avoir un impact important sur nos usages de l’IA et sur leur capacité à simplifier notre quotidien. Elles marquent une nouvelle étape dans le développement d’intelligences artificielles plus intuitives, plus performantes et surtout plus ancrées dans notre monde d’activités humaines.

OpenAI améliore ses modèles vocaux pour des agents plus naturels

OpenAI enrichit ainsi son offre avec de nouveaux modèles de transcription et de génération vocale pour son API. Cette évolution s’inscrit dans la vision “agentique” de l’entreprise, l’éditeur multipliant ces dernières semaines les briques permettant aux développeurs de bâtir des agents IA autonomes.

Les nouveaux modèles de reconnaissance vocale, “gpt-4o-transcribe” et “gpt-4o-mini-transcribe”, remplacent le vieillissant Whisper et promettent une meilleure capture de la parole, même dans des environnements bruyants ou avec des accents variés. Selon Jeff Harris, membre de l’équipe produit, ces modèles sont « beaucoup moins susceptibles d’halluciner » que leur prédécesseur, qui avait parfois tendance à inventer des passages entiers dans les transcriptions lorsque la qualité audio n’était pas au rendez-vous. OpenAI promet un bon en avant pour tous les agents IA qui doivent interpréter des commandes vocales ou analyser des flux audio.

Parallèlement, OpenAI améliore aussi la synthèse vocale, pour permettre aux agents IA de communiquer avec les humains (typiquement des agents de vente ou de support). Le modèle “gpt-4o-mini-tts” introduit une nouveauté majeure : les développeurs peuvent désormais instruire le modèle sur la façon de s’exprimer. Des commandes comme “parle comme un scientifique fou” ou “utilise une voix sereine, comme un professeur pédagogue” permettent de personnaliser l’expérience vocale.

« Dans bien des contextes, vous ne voulez pas simplement une voix plate et monotone, » explique Jeff Harris. « Notre conviction est que les développeurs et utilisateurs veulent contrôler non seulement ce qui est dit, mais comment les choses sont dites. »

Contrairement à Whisper qui reste disponible en open source, ces nouveaux modèles, plus volumineux, seront exclusivement accessibles via l’API d’OpenAI et hébergés sur les plateformes Cloud.

Claude AI peut désormais chercher sur le web

De son côté, Anthropic a récemment fait faire un bond qualitatif à son assistant Claude AI en introduisant Claude 3.7 Sonnet, présenté comme « le premier modèle de raisonnement IA hybride » capable de “réfléchir” aux questions avant de répondre sans pour autant que les utilisateurs aient à choisir un modèle spécifique.

Mais il manquait toujours une fonctionnalité phare à Claude AI que tous ses principaux concurrents possèdent pourtant : la capacité d’enrichir ses réponses de recherches Web. Cette fonctionnalité a toujours été présente sur Microsoft Copilot et Google Gemini mais a été introduite l’an dernier sur ChatGPT.

Pour l’instant uniquement déployée aux États-Unis et réservée aux abonnés payants, la fonctionnalité de recherche Web permet à l’IA d’accéder aux informations les plus récentes et de ne plus se contenter du savoir acquis à son apprentissage pour formuler ses réponses.

Lorsque Claude intègre des informations du web, il fournit également les liens directs pour remonter à la source et vérifier l’exactitude des réponses. Selon Anthropic, cette recherche Web se révèle très utile aux équipes commerciales, analystes financiers, chercheurs ainsi qu’aux consommateurs qui souhaitent comparer des produits.

Anthropic compte étendre cette fonctionnalité à l’Europe et aux utilisateurs gratuits « prochainement ».



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights