—tools/groq.json
Groq
Inference LLM ultra-rapide (~500 tok/s). Free tier généreux, idéal pour latence critique et prototyping.
01—à savoir
Le service d'inference LLM le plus rapide du marché en 2026, grâce à leur hardware custom (LPU, Language Processing Unit). En pratique : Llama 3.3 70B répond à ~500 tokens/seconde, contre ~50 chez OpenAI. Pour des apps où la latence compte (chatbots, voice, search), Groq change le UX. Gros free tier qui suffit pour prototyper. Ne sert que les modèles open-source — tu n'as pas accès à Claude ou GPT.
02—pros
- 10x plus rapide qu'OpenAI/Anthropic sur les open-source models
- Free tier 30 req/min suffit pour la plupart des prototypes
- Compatible OpenAI SDK : tu changes l'URL endpoint et c'est bon
- Idéal pour chatbots, voice, search où la latence < 1s compte vraiment
03—cons
- Pas de Claude / GPT (uniquement open-source : Llama, Mixtral, Qwen, Gemma)
- Rate limits free tier serrés en burst
- Performance Llama 3.3 70B reste derrière Claude Sonnet sur le reasoning complexe
—alternatives
- Anthropic APIL'API derrière Claude. Modèles Sonnet/Opus/Haiku, prompt caching, tool use, files, agents managés.
- OpenAI APIL'API GPT-5/4o/o3. Référence concurrente d'Anthropic, ecosystème historique, image gen + voice + audio natifs.
- Mistral AIL'API LLM française. Souveraineté UE, modèles open-weight + closed, prix imbattables sur les modèles small.
—paire bien avec
// à explorer ensuite
À explorer ensuite
Suggestions calculées sémantiquement — proches de ce que tu lis, pas seulement par catégorie.
- outil
Anthropic API
L'API derrière Claude. Modèles Sonnet/Opus/Haiku, prompt caching, tool use, files, agents managés.
- guide
Quel LLM choisir en 2026 (Claude, GPT, Mistral, Gemini)
Comparaison concrète des 4 LLMs majeurs pour les devs et founders en 2026. Prix, qualité, latence, souveraineté — verdict par cas d'usage.
- outil
OpenClaw
Assistant IA personnel open-source local-first. Tu choisis le LLM, ton ordi tourne, tes données restent chez toi.
- outil
Deepgram
Speech-to-text (STT) optimisé pour les agents voice. Latence <300ms, 30+ langues, accents reconnus.