Cerebras

ℹ️Note

Ceci est un document de référence pour Careti. Il suit la version fusionnée de Careti v3.38.1. Toute politique spécifique à Careti (modèles autorisés/bloqués, restrictions régionales, authentification/routage) sera indiquée par un <Note> dans le corps du texte.

ℹ️Note

Amélioration du Provider Setup : conformément à caret-docs/features/f09-enhanced-provider-setup.md, la validation de la configuration du provider et l'UX de Careti peuvent être renforcées. Veuillez noter que les modèles autorisés/bloqués peuvent varier en fonction des politiques de compte/organisation ou de l'application du routeur Careti.

Cerebras offre l'inference IA la plus rapide au monde grâce à son architecture de puce révolutionnaire wafer-scale. Contrairement aux GPU traditionnels qui transfèrent les poids des modèles depuis une mémoire externe, Cerebras stocke l'intégralité des modèles sur la puce (on-chip), éliminant les goulots d'étranglement de bande passante et atteignant des vitesses allant jusqu'à 2 600 tokens par seconde — souvent 20 fois plus rapides que les GPU.

Site web : https://cloud.cerebras.ai/

Obtenir une API Key

S'inscrire/Se connecter : Allez sur Cerebras Cloud et créez un compte ou connectez-vous.
Accéder aux API Keys : Accédez à la section des API keys dans votre tableau de bord.
Créer une clé : Générez une nouvelle API key. Donnez-lui un nom descriptif (par exemple, "Careti").
Copier la clé : Copiez l'API key immédiatement. Conservez-la en toute sécurité.

Modèles pris en charge

Careti prend en charge les modèles Cerebras suivants :

zai-glm-4.6 - Modèle polyvalent intelligent avec 1 500 tokens/s
qwen-3-235b-a22b-instruct-2507 - Modèle avancé de suivi d'instructions
qwen-3-235b-a22b-thinking-2507 - Modèle de raisonnement avec réflexion étape par étape
llama-3.3-70b - Modèle Llama 3.3 de Meta optimisé pour la vitesse
qwen-3-32b - Modèle compact mais puissant pour les tâches générales

Configuration dans Careti

Ouvrir les paramètres de Careti : Cliquez sur l'icône des paramètres (⚙️) dans le panneau Careti.
Sélectionner le Provider : Choisissez "Cerebras" dans le menu déroulant "API Provider".
Saisir l'API Key : Collez votre Cerebras API key dans le champ "Cerebras API Key".
Sélectionner le modèle : Choisissez le modèle souhaité dans le menu déroulant "Model".
(Optionnel) Base URL personnalisée : La plupart des utilisateurs n'auront pas besoin d'ajuster ce paramètre.

L'avantage Wafer-Scale de Cerebras

Cerebras a fondamentalement réimaginé l'architecture matérielle de l'IA pour résoudre le problème de vitesse d'inference :

Architecture Wafer-Scale

Les GPU traditionnels utilisent des puces séparées pour le calcul et la mémoire, ce qui les oblige à transférer constamment les poids des modèles. Cerebras a construit la plus grande puce d'IA au monde — un moteur wafer-scale qui stocke des modèles entiers sur la puce. Pas de mémoire externe, pas de goulots d'étranglement de bande passante, pas d'attente.

Vitesse révolutionnaire

Jusqu'à 2 600 tokens par seconde - souvent 20 fois plus rapide que les GPU
Raisonnement en une seule seconde - ce qui prenait autrefois des minutes se produit maintenant instantanément
Applications en temps réel - les modèles de raisonnement deviennent pratiques pour une utilisation interactive
Aucune limite de bande passante - les modèles entiers stockés sur puce éliminent les goulots d'étranglement de la mémoire

La Cerebras Scaling Law

Cerebras a découvert qu'une inference plus rapide permet une IA plus intelligente. Les modèles de raisonnement modernes génèrent des milliers de tokens en tant que "monologue interne" avant de répondre. Sur du matériel traditionnel, cela prend trop de temps pour une utilisation en temps réel. Cerebras rend les modèles de raisonnement suffisamment rapides pour les applications quotidiennes.

Qualité sans compromis

Contrairement à d'autres optimisations de vitesse qui sacrifient la précision, Cerebras maintient la qualité totale du modèle tout en offrant une vitesse sans précédent. Vous bénéficiez de l'intelligence des modèles de pointe avec la réactivité des modèles légers.

En savoir plus sur la technologie de Cerebras dans leurs articles de blog :

Forfaits Cerebras Code

Cerebras propose des forfaits spécialisés pour les développeurs :

Code Pro (50 $/mois)

Accès à Qwen3-Coder avec des complétions rapides et à haut contexte
Jusqu'à 24 millions de tokens par jour
Idéal pour les développeurs indépendants et les projets de week-end
3 à 4 heures de codage ininterrompu par jour

Code Max (200 $/mois)

Prise en charge des flux de travail de codage intensifs
Jusqu'à 120 millions de tokens par jour
Parfait pour le développement à plein temps et les systèmes multi-agents
Pas de limites hebdomadaires, pas de verrouillage d'IDE

Caractéristiques spéciales

Niveau gratuit (Free Tier)

Le modèle qwen-3-coder-480b-free donne accès à une inference haute performance sans frais — un cas unique parmi les fournisseurs axés sur la vitesse.

Raisonnement en temps réel

Les modèles de raisonnement comme qwen-3-235b-a22b-thinking-2507 peuvent achever un raisonnement complexe en plusieurs étapes en moins d'une seconde, ce qui les rend pratiques pour les flux de travail de développement interactifs.

Spécialisation en programmation

Les modèles Qwen3-Coder sont spécifiquement optimisés pour les tâches de programmation, offrant des performances comparables à Claude Sonnet 4 et GPT-4.1 dans les benchmarks de codage.

Pas de verrouillage d'IDE (No IDE Lock-In)

Fonctionne avec n'importe quel outil compatible OpenAI — Cursor, Continue.dev, Careti ou tout autre éditeur prenant en charge les endpoints OpenAI.

Conseils et notes

Avantage de vitesse : Cerebras excelle à rendre les modèles de raisonnement pratiques pour une utilisation en temps réel. Parfait pour les flux de travail agentiques qui nécessitent plusieurs appels LLM.
Niveau gratuit : Commencez par le modèle gratuit pour expérimenter la vitesse de Cerebras avant de passer aux forfaits payants.
Fenêtres de contexte : Les modèles prennent en charge des fenêtres de contexte allant de 64K à 128K tokens pour inclure un contexte de code substantiel.
Limites de débit (Rate Limits) : Limites de débit généreuses conçues pour les flux de travail de développement. Consultez votre tableau de bord pour les limites actuelles.
Tarification : Tarification compétitive avec des avantages de vitesse significatifs. Visitez Cerebras Cloud pour les tarifs actuels.
Applications en temps réel : Idéal pour les applications où le temps de réponse de l'IA est crucial — génération de code, débogage et développement interactif.

ℹ️Note

ℹ️Note

Obtenir une API Key​

Modèles pris en charge​

Configuration dans Careti​

L'avantage Wafer-Scale de Cerebras​

Architecture Wafer-Scale​

Vitesse révolutionnaire​

La Cerebras Scaling Law​

Qualité sans compromis​

Forfaits Cerebras Code​

Code Pro (50 $/mois)​

Code Max (200 $/mois)​

Caractéristiques spéciales​

Niveau gratuit (Free Tier)​

Raisonnement en temps réel​

Spécialisation en programmation​

Pas de verrouillage d'IDE (No IDE Lock-In)​

Conseils et notes​

Obtenir une API Key

Modèles pris en charge

Configuration dans Careti

L'avantage Wafer-Scale de Cerebras

Architecture Wafer-Scale

Vitesse révolutionnaire

La Cerebras Scaling Law

Qualité sans compromis

Forfaits Cerebras Code

Code Pro (50 $/mois)

Code Max (200 $/mois)

Caractéristiques spéciales

Niveau gratuit (Free Tier)

Raisonnement en temps réel

Spécialisation en programmation

Pas de verrouillage d'IDE (No IDE Lock-In)

Conseils et notes