Pipeline vs. Realtime : architecture et latence voicebot

Pipeline STT–LLM–TTS ou realtime speech-to-speech ? Différences architecturales, impact sur la latence, panorama des modèles realtime et TTS en 2026, et guide pour choisir la bonne approche.

Publié le 30 avril 2026 | Voicebots & Agents Vocaux IA

Quand on commence à construire un voicebot, le premier choix structurant est souvent le moins visible : quelle architecture adopter ? Deux grandes familles s'affrontent aujourd'hui — le pipeline STT–LLM–TTS et le realtime speech-to-speech. Ce choix conditionne la latence, la qualité vocale, le coût, la débogabilité et la conformité réglementaire. Il n'y a pas de réponse universelle — mais il y a une façon rigoureuse d'y répondre.

Cet article fait suite à notre analyse sur la latence des voicebots et va plus loin sur les choix architecturaux et le panorama des modèles disponibles en 2026.

Le pipeline STT–LLM–TTS : l'architecture de référence

Comment ça fonctionne

Le pipeline chaîne trois modèles spécialisés en séquence :

1. STT (Speech-to-Text) : transcrit l'audio de l'utilisateur en texte 2. LLM (Large Language Model) : raisonne sur le texte et génère une réponse 3. TTS (Text-to-Speech) : synthétise la réponse en audio

En amont, un VAD (Voice Activity Detection) détecte quand l'utilisateur parle ; en aval, le transport audio (WebRTC) achemine le son vers l'interlocuteur.

Séquentiel vs. streaming : une différence de 1,5 seconde

Dans sa forme naïve, chaque étape attend que la précédente soit terminée — résultat : 1,5 à 2 secondes de délai minimum. Inutilisable en production.

Dans sa forme streaming, les étapes se chevauchent : le STT transmet des transcriptions partielles au LLM pendant que l'utilisateur parle encore ; le LLM envoie ses premiers tokens au TTS avant d'avoir fini de générer ; le TTS commence à synthétiser dès les premiers mots reçus. Avec ce chevauchement, la latence tombe à 400–800 ms — suffisant pour une conversation naturelle.

Ce que la conversion perd en route

La chaîne audio→texte→audio ne transmet pas tout. Le ton, les hésitations, l'émotion, le rythme de parole — tout ce qui ne se transcrit pas — disparaît à l'étape STT. Le LLM ne voit que des mots. Le TTS les restitue avec une prosodie générée, pas perçue.

Les atouts du pipeline

Modulaire : chaque composant est swappable indépendamment
Débogable : le texte est visible à chaque étape, les erreurs sont traçables
Flexible : tool calling mature, turn detection personnalisable, choix de fournisseur libre
Conforme : redaction PII possible, audit logging, hébergement géo-contrôlé
Téléphonie : compatible avec les codecs 8 kHz des réseaux téléphoniques

Realtime speech-to-speech : le modèle unifié

Comment ça fonctionne

Un seul modèle multimodal reçoit l'audio brut de l'utilisateur et produit directement de l'audio en retour. Pas de transcription intermédiaire, pas de conversion. Le modèle entend, raisonne et parle.

L'avantage structurel sur la latence

Là où le pipeline chaîne trois appels de modèles (plus overhead de sérialisation), le realtime n'en fait qu'un. La latence cible est de 200–400 ms — structurellement inférieure à un pipeline même bien optimisé.

Ce qu'il capte en plus

Le modèle n'entend pas seulement les mots — il entend comment ils sont dits. Ton, hésitation, émotion, rythme : tout cela informe la réponse, y compris sa prosodie. L'échange sonne plus naturel, plus humain.

Les limites du realtime

Boîte noire : difficile de savoir pourquoi le modèle a répondu ainsi
Turn detection limitée : peu de contrôle sur les paramètres de fin de tour
Tool calling moins mature : varie selon les modèles et providers
Coût variable : facturé à la seconde d'audio, difficile à optimiser
Téléphonie difficile : modèles entraînés sur de l'audio haute qualité (16–48 kHz), incompatible avec le réseau téléphonique (8 kHz)

Panorama des modèles realtime actuels

Le marché speech-to-speech évolue très vite. Voici les acteurs majeurs disponibles en avril 2026.

GPT-Realtime-1.5 — OpenAI (février 2026)

Le modèle le plus performant sur les dynamiques conversationnelles avec un score de 95,7 % sur Full Duplex Bench et une latence moyenne de ~320 ms bout en bout. Par rapport à la version précédente : +10,23 % de précision de transcription alphanumérique, +7 % de suivi d'instructions, +5 % de raisonnement audio (Big Bench Audio). Point fort : maturité du tool calling et meilleur score de conversation naturelle du marché.

Gemini 2.5 Flash Native Audio — Google

Latence de ~400 ms en production, support de plus de 70 langues avec traduction vocale en direct. Score de 71,5 % sur ComplexFuncBench pour les appels de fonctions multi-étapes, 90 % d'adhérence aux instructions. Bon compromis latence / fonctionnalités.

Gemini 3.1 Flash Live — Google (mars 2026)

Lancé le 25 mars 2026, ce modèle audio natif est conçu pour les dialogues en temps réel. Il supporte plus de 90 langues, maintient le contexte conversationnel deux fois plus longtemps que son prédécesseur, et filtre mieux les bruits de fond (trafic, télévision). Il améliore significativement l'adhérence aux instructions système complexes, même lors de conversations imprévisibles. Accessible via la Live API pour les développeurs.

Qwen3-Omni — Alibaba Cloud

Deux variantes : le modèle standard 30B et Qwen3.5 Omni Flash Realtime qui atteint 0,79 s jusqu'au premier audio. L'architecture Thinker-Talker MoE (Mixture of Experts) permet une latence théorique de 234 ms en streaming. Support de 119 langues écrites, 19 pour la compréhension vocale, 10 pour la génération. Alternative solide pour les déploiements non anglophones.

Hume EVI 3 — Hume AI (mai 2025)

Approche radicalement différente : EVI 3 est un speech-language model de 3ème génération capable de générer instantanément n'importe quelle voix et personnalité via un prompt, sans être limité à des locuteurs prédéfinis. Il unifie transcription, compréhension et génération vocale dans un seul modèle, et exprime 30 émotions et styles vocaux distincts (de "exhilaré" à "chuchotant"). Son moteur TTS Octave interprète les indices émotionnels d'un script comme le ferait un acteur humain. Particulièrement adapté aux expériences conversationnelles à haute valeur émotionnelle.

Step-Audio R1.1

Leader en qualité de raisonnement audio avec 97,0 % sur Big Bench Audio. Modèle à surveiller pour les cas d'usage nécessitant un raisonnement complexe.

Grok Voice Agent — xAI

Latence compétitive de 0,78 s jusqu'au premier audio. Intégration naturelle avec l'écosystème xAI.

Mistral Voxtral Realtime (février 2026)

Modèle spécialement conçu pour la transcription temps réel en français. À noter prioritairement pour les déploiements francophones.

Inworld Realtime API

Contrairement aux autres, Inworld adopte un pipeline STT+LLM+TTS optimisé (500–800 ms) plutôt qu'un vrai speech-to-speech natif. En contrepartie, il offre la meilleure qualité vocale du marché : le composant TTS 1.5 Max est en tête de l'Artificial Analysis Speech Arena avec un score Elo de 1 236 (mars 2026) et permet de router vers des centaines de modèles LLM différents.

Panorama des modèles TTS dédiés

Pour les architectures pipeline, le choix du TTS est déterminant — à la fois sur la qualité perçue et sur la latence du premier audio produit (TTFB).

ElevenLabs Turbo v2.5

Référence du marché en qualité vocale. TTFB autour de 75 ms, support de 32 langues, clonage de voix, voix expressives. Idéal quand la qualité sonore prime.

Cartesia Sonic

L'un des plus rapides du marché avec un TTFB de ~50 ms. Bonne qualité générale, bien adapté aux déploiements temps réel exigeants en latence.

OpenAI TTS / gpt-4o-mini-tts

TTFB autour de 100 ms. La variante `gpt-4o-mini-tts` permet le contrôle du style vocal via des instructions en langage naturel. Simple à intégrer pour les équipes déjà dans l'écosystème OpenAI.

Google Neural2 / Chirp HD

Support de plus de 40 langues, TTFB ~120 ms. Excellente couverture multilingue, notamment pour les langues non-européennes.

Azure Neural TTS

Le plus large catalogue : plus de 400 voix en 140 langues. Idéal pour les déploiements internationaux ou les secteurs nécessitant des certifications Microsoft (HIPAA, SOC 2, ISO 27001).

Deepgram Aura

Optimisé pour la téléphonie avec un TTFB de ~50 ms. Conçu pour les appels, moins adapté aux usages web haute-fidélité.

Play.ht

Clonage de voix instantané, accents régionaux, bonne couverture multilingue. TTFB autour de 150 ms.

Gemini 3.1 Flash TTS — Google (avril 2026)

Annoncé le 14 avril 2026, ce modèle apporte un contrôle granulaire sur le style vocal via des audio tags : ajustement du ton, du tempo et de l'émotion à mi-phrase en langage naturel. Support de plus de 70 langues. Tous les audios générés sont watermarqués avec SynthID pour prévenir la désinformation. Fort potentiel pour les applications expressives.

Hume Octave

Le moteur TTS de Hume fonctionne comme un speech-language model : il interprète les retournements narratifs, les indices émotionnels et les traits de personnage dans un texte, puis les restitue de façon réaliste. Plus qu'un TTS, c'est un "acteur vocal" IA. Particulièrement adapté aux expériences nécessitant une forte charge émotionnelle.

Comparaison approfondie : Pipeline vs. Realtime

Critère	Pipeline STT–LLM–TTS	Realtime S2S
Latence	400–800 ms (streaming)	200–400 ms
Qualité vocale	Excellente avec les meilleurs TTS	Naturelle, prosodiquement consciente
Prosodie / émotion	Limitée (conversion audio→texte)	Perçue et restituée
Tool calling	Mature, fiable, structuré	Variable selon les modèles
Turn detection	Contrôle total, personnalisable	Boîte noire du modèle
Débogabilité	Texte visible à chaque étape	Audio in / audio out, opaque
Modularité	Totale : chaque composant swappable	Locked-in au modèle
Téléphonie (8 kHz)	Compatible (STT optimisé)	Difficile (entraîné sur 16–48 kHz)
Conformité / RGPD	Granulaire, redaction PII possible	Centralisé, résidence variable
Multilingue	Meilleur STT/TTS par langue	Dépend du modèle

Le half-cascade : le meilleur des deux mondes

Il n'est pas obligatoire de choisir l'un ou l'autre. Deux configurations hybrides méritent attention :

Realtime + TTS dédié (dite "half-cascade") : le modèle realtime gère l'entrée — il entend l'audio, capte le ton, raisonne — mais restitue du texte plutôt que de l'audio. Ce texte est envoyé à un TTS dédié (ElevenLabs, Cartesia, Gemini 3.1 Flash TTS...). On garde la perception émotionnelle en entrée et le contrôle de la voix en sortie.

Realtime + STT parallèle : un modèle STT tourne en parallèle du realtime pour produire une transcription fidèle. Utile dans les secteurs réglementés qui exigent un transcript auditable.

Comment choisir ?

Naturalité émotionnelle prioritaire (assistant personnel, santé mentale, coaching) → Realtime ou Hume EVI 3
Téléphonie, centre d'appels, IVR → Pipeline avec STT optimisé téléphonie
Conformité stricte (santé, finance, secteur public) → Pipeline avec hébergement localisé
Tool calling complexe (calendrier, CRM, prise de rendez-vous) → Pipeline
Multilingue critique → Pipeline avec STT/TTS spécialisés par langue
Prototypage rapide → Realtime (moins de composants à assembler)
Contrôle de la voix de marque → Pipeline ou Half-cascade avec TTS dédié

Conclusion

Le choix entre pipeline et realtime n'est pas un choix purement technique — c'est un choix produit. Il dépend de votre secteur, de vos utilisateurs, de vos exigences en conformité et de la place que vous accordez à la naturalité de la voix.

Le marché des modèles évolue à une vitesse remarquable : GPT-Realtime-1.5, Gemini 3.1 Flash Live, Hume EVI 3, Qwen3-Omni — chaque trimestre apporte de nouveaux acteurs et de nouveaux benchmarks. Choisir aujourd'hui sans anticiper l'évolution du marché, c'est risquer de se retrouver enfermé dans une architecture qui ne tient plus ses promesses demain.

Versatik vous accompagne dans ce choix architectural : analyse de votre cas d'usage, recommandation des modèles adaptés, mise en production et optimisation continue. Nos équipes travaillent quotidiennement avec les modèles realtime et les pipelines STT–LLM–TTS les plus récents pour en connaître les avantages réels — au-delà des benchmarks.

30 secondes pour réserver 30 minutes

Vous hésitez entre pipeline et realtime pour votre voicebot ? Nos équipes peuvent vous aider à faire le bon choix en 30 minutes.

Prendre rendez-vous →

Pipeline vs. Realtime : différences architecturales et impact sur la latence des voicebots

Le pipeline STT–LLM–TTS : l'architecture de référence

Comment ça fonctionne

Séquentiel vs. streaming : une différence de 1,5 seconde

Ce que la conversion perd en route

Les atouts du pipeline

Realtime speech-to-speech : le modèle unifié

Comment ça fonctionne

L'avantage structurel sur la latence

Ce qu'il capte en plus

Les limites du realtime

Panorama des modèles realtime actuels

GPT-Realtime-1.5 — OpenAI (février 2026)

Gemini 2.5 Flash Native Audio — Google

Gemini 3.1 Flash Live — Google (mars 2026)

Qwen3-Omni — Alibaba Cloud

Hume EVI 3 — Hume AI (mai 2025)

Step-Audio R1.1

Grok Voice Agent — xAI

Mistral Voxtral Realtime (février 2026)

Inworld Realtime API

Panorama des modèles TTS dédiés

ElevenLabs Turbo v2.5

Cartesia Sonic

OpenAI TTS / gpt-4o-mini-tts

Google Neural2 / Chirp HD

Azure Neural TTS

Deepgram Aura

Play.ht

Gemini 3.1 Flash TTS — Google (avril 2026)

Hume Octave

Comparaison approfondie : Pipeline vs. Realtime

Le half-cascade : le meilleur des deux mondes

Comment choisir ?

Conclusion