—tools/deepgram.json
Deepgram
Speech-to-text (STT) optimisé pour les agents voice. Latence <300ms, 30+ langues, accents reconnus.
01—à savoir
STT (speech-to-text) ultra-rapide pensé pour les agents voice realtime. Latence <300ms streaming, gestion des accents et bruit ambiant supérieure à OpenAI Whisper sur des contextes prod. Utilisé par les call centers IA, les agents voice (combo avec ElevenLabs en TTS), les transcriptions live. Si tu builds une feature voice, Deepgram + ElevenLabs sont le combo de référence en 2026.
02—pros
- Latence streaming <300ms — critique pour les agents voice realtime
- Reconnaissance accents et bruit ambiant supérieure à Whisper
- 30+ langues, modèles spécifiques (médical, légal, business)
- 200$ de crédits gratuits à l'inscription = ~45h gratuites
- WebSocket streaming + REST batch APIs
03—cons
- Pricing au temps audio devient cher sur volume (>500h/mois)
- Whisper est gratuit en self-host (mais latence/qualité moins bonnes en streaming)
- Pas open-source — lock-in vendor
—alternatives
—paire bien avec
// à explorer ensuite
À explorer ensuite
Suggestions calculées sémantiquement — proches de ce que tu lis, pas seulement par catégorie.
- outil
ElevenLabs
TTS (text-to-speech) ultra-réaliste. Le standard 2026 pour les voix IA en production : voiceover, audiobooks, agents voice.
- outil
Groq
Inference LLM ultra-rapide (~500 tok/s). Free tier généreux, idéal pour latence critique et prototyping.
- outil
OpenAI API
L'API GPT-5/4o/o3. Référence concurrente d'Anthropic, ecosystème historique, image gen + voice + audio natifs.
- outil
Dify
Plateforme open-source pour construire des apps LLM sans coder. Workflows visuels, RAG, agents, déploiement en 1 click.