Deepgram

Speech-to-text (STT) optimisé pour les agents voice. Latence <300ms, 30+ langues, accents reconnus.

200€/mois

free tier dispo

Essayer Deepgram

// lien direct

01—à savoir

STT (speech-to-text) ultra-rapide pensé pour les agents voice realtime. Latence <300ms streaming, gestion des accents et bruit ambiant supérieure à OpenAI Whisper sur des contextes prod. Utilisé par les call centers IA, les agents voice (combo avec ElevenLabs en TTS), les transcriptions live. Si tu builds une feature voice, Deepgram + ElevenLabs sont le combo de référence en 2026.

02—pros

Latence streaming <300ms — critique pour les agents voice realtime
Reconnaissance accents et bruit ambiant supérieure à Whisper
30+ langues, modèles spécifiques (médical, légal, business)
200$ de crédits gratuits à l'inscription = ~45h gratuites
WebSocket streaming + REST batch APIs

03—cons

Pricing au temps audio devient cher sur volume (>500h/mois)
Whisper est gratuit en self-host (mais latence/qualité moins bonnes en streaming)
Pas open-source — lock-in vendor

—alternatives

ElevenLabsTTS (text-to-speech) ultra-réaliste. Le standard 2026 pour les voix IA en production : voiceover, audiobooks, agents voice.

—paire bien avec

// à explorer ensuite

À explorer ensuite

Suggestions calculées sémantiquement — proches de ce que tu lis, pas seulement par catégorie.

Deepgram

À explorer ensuite

ElevenLabs

Groq

OpenAI API

Dify