Claude Code avec un LLM local : pourquoi tout le monde s'y met en 2026

Et si vous pouviez garder l'interface et le workflow de Claude Code — l'agent en ligne de commande d'Anthropic — tout en le branchant sur un modèle qui tourne sur votre propre machine ou sur un fournisseur tiers low-cost ? C'est exactement ce que cherchent des milliers de développeurs : un Claude Code gratuit, privé et hors-ligne, alimenté par Ollama, OpenRouter ou un proxy comme Claude Code Router.

La raison est simple. L'agent de codage d'Anthropic est devenu un standard ergonomique : la boucle agentique, les outils, le mode plan, les hooks, les sous-agents. Mais l'API officielle a un coût, et certains projets exigent que le code ne quitte jamais la machine. La bonne nouvelle, c'est que Claude Code lit une simple variable d'environnement — ANTHROPIC_BASE_URL — pour décider à quel serveur envoyer ses requêtes. En la redirigeant, on peut faire tourner l'agent sur Qwen3 Coder, GLM, DeepSeek, Kimi K2 ou n'importe quel modèle local.

Dans ce guide complet en français, vous allez voir les trois méthodes pour utiliser Claude Code avec un autre modèle que ceux d'Anthropic, comment les configurer pas à pas, comment choisir le bon modèle, et surtout quelles sont les limites à connaître avant de tout migrer.

Sommaire

Pourquoi utiliser Claude Code avec un autre modèle ?

Les 3 méthodes en un coup d'œil

Méthode 1 : Ollama en local (gratuit et privé)

Méthode 2 : OpenRouter (200+ modèles, presque zéro config)

Méthode 3 : Claude Code Router (le routage intelligent)

Quel modèle choisir pour coder ?

Les limites à connaître avant de migrer

FAQ : Claude Code et les modèles alternatifs

Pourquoi utiliser Claude Code avec un autre modèle ?<a id="pourquoi"></a>

Trois motivations reviennent systématiquement chez les développeurs qui détournent Claude Code vers un LLM tiers :

Le coût. L'usage intensif de l'API Anthropic peut grimper vite sur de gros refactorings ou des boucles d'agents. Un modèle local est gratuit à l'inférence ; OpenRouter propose des modèles à quelques centimes le million de tokens, voire des tiers gratuits. Si la facture est votre sujet, lisez d'abord notre guide réduire sa facture Claude Code (FinOps tokens) — il chiffre précisément où part l'argent.

La confidentialité. En local, aucune ligne de code ne quitte votre poste. C'est décisif pour du code propriétaire, des secrets clients, ou des secteurs réglementés (santé, finance, défense).

L'autonomie et le offline. Pas de quota, pas de coupure d'API, pas de dépendance réseau. Vous pouvez coder dans le train ou derrière un pare-feu d'entreprise strict.

Attention toutefois : utiliser un autre modèle, ce n'est pas utiliser Claude. Vous gardez l'outil (la « coquille » agentique) mais vous changez le cerveau. La qualité de raisonnement, la fiabilité des appels d'outils et la gestion du contexte dépendront entièrement du modèle choisi. On y revient dans la section limites.

Les 3 méthodes en un coup d'œil<a id="methodes"></a>

Il existe trois façons d'y parvenir, de la plus simple à la plus puissante :

1.Ollama en local — depuis Ollama v0.14 (janvier 2026), le serveur expose nativement l'API « Anthropic Messages ». Claude Code lui parle directement, sans aucun proxy. C'est la voie idéale pour le 100 % local et privé.

2.OpenRouter — un agrégateur qui donne accès à 200+ modèles (open-source et propriétaires) derrière une seule clé API. On redirige ANTHROPIC_BASE_URL vers OpenRouter et c'est parti.

3.Claude Code Router — un proxy open-source (@musistudio/claude-code-router) qui s'intercale entre Claude Code et plusieurs fournisseurs, avec du routage par scénario : un petit modèle pour les tâches simples, un gros pour le raisonnement, un autre pour les longs contextes.

Méthode	Coût	Confidentialité	Difficulté	Pour qui
Ollama local	Gratuit	Maximale (offline)	Moyenne	Code privé, machines puissantes
OpenRouter	Très bas	Faible (cloud)	Très facile	Tester plein de modèles
Claude Code Router	Variable	Variable	Avancée	Power users, routage fin

Méthode 1 : Ollama en local (gratuit et privé)<a id="ollama"></a>

C'est la méthode la plus propre depuis 2026. Assurez-vous d'avoir Ollama v0.14.0 ou supérieur (la version qui apporte la compatibilité native avec l'API Anthropic Messages). Si Claude Code n'est pas encore installé, suivez notre tutoriel installer Claude Code sur Mac, Windows et Linux.

Étape 1 — Télécharger un modèle de code. Par exemple un Qwen3 Coder, dimensionné à votre matériel :

ollama pull qwen3-coder:7b

Étape 2 — Pointer Claude Code vers Ollama. Ollama écoute par défaut sur le port 11434. Exportez les variables d'environnement dans votre ~/.bashrc ou ~/.zshrc (macOS, Linux, WSL2) :

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_MODEL="qwen3-coder:7b"

Sous Windows PowerShell, l'équivalent est :

$env:ANTHROPIC_BASE_URL="http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN="ollama"
$env:ANTHROPIC_API_KEY=""

Étape 3 — Lancer Claude Code normalement. Ouvrez votre projet et tapez claude. L'agent enverra désormais ses requêtes à Ollama, en local, gratuitement.

⚠️ **Le piège classique :** si vous ouvrez un nouveau terminal sans que ces variables soient chargées, Claude Code retombe sur l'API d'Anthropic dans le cloud et échoue (ou facture). Vérifiez toujours avec `echo $ANTHROPIC_BASE_URL` que la redirection est active.

Dimensionnez le contexte à votre matériel. Une grande fenêtre de contexte est tentante mais peut dépasser votre VRAM. Un retour d'expérience courant : un contexte de 64k sur 24 Go de VRAM provoquait des ralentissements sévères, alors que passer à 32k rendait l'agent fluide. Commencez petit, augmentez si la machine suit.

Méthode 2 : OpenRouter (200+ modèles, presque zéro config)<a id="openrouter"></a>

Vous n'avez pas une machine assez musclée pour l'inférence locale ? OpenRouter vous donne accès aux mêmes modèles open-source dans le cloud, avec le workflow Claude Code identique, et souvent un tier gratuit pour tester.

Là encore, tout repose sur ANTHROPIC_BASE_URL. OpenRouter expose un endpoint compatible Anthropic :

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_API_KEY="sk-or-votre-cle-openrouter"
export ANTHROPIC_MODEL="qwen/qwen3-coder"

Récupérez votre clé sur le tableau de bord OpenRouter, choisissez un modèle dans leur catalogue (la syntaxe est fournisseur/modele), et relancez claude. Comme OpenRouter parle nativement le protocole Anthropic, aucun proxy local n'est nécessaire. C'est la méthode la plus rapide pour comparer DeepSeek, Kimi K2, GLM ou Qwen sans rien installer d'autre.

Cette approche par API agrégée rejoint une tendance de fond : exposer chaque service derrière une interface standard pour le brancher partout. C'est la même logique que les plateformes d'API de données prêtes à connecter ou que les serveurs MCP — un sujet que nous détaillons dans créer un serveur MCP pour Claude Code.

Méthode 3 : Claude Code Router (le routage intelligent)<a id="router"></a>

Pour les power users, Claude Code Router est l'outil de référence. C'est un proxy open-source qui s'installe via npm :

npm install -g @musistudio/claude-code-router
ccr code

Au lancement, ccr démarre un serveur local (par défaut sur http://127.0.0.1:3456) et lance Claude Code en le pointant automatiquement dessus. Sa force, c'est le routage par scénario défini dans un fichier de configuration : vous décidez quel modèle gère quoi.

Une tâche simple (renommer, reformater) → un petit modèle rapide et gratuit.

Un raisonnement complexe (architecture, debug profond) → un modèle plus costaud.

Un contexte très long (lecture d'un gros dépôt) → un modèle à grande fenêtre.

Le fallback → un modèle de secours si le principal tombe.

Le routeur peut piocher dans OpenRouter, DeepSeek, Gemini, Ollama et d'autres en même temps. On obtient le meilleur rapport qualité/prix en envoyant chaque requête au modèle le plus adapté — une forme de FinOps automatisée. Cette philosophie « le bon modèle pour la bonne tâche » est exactement celle des architectures multi-agents open-source et auto-hébergées, un terrain que défriche en profondeur le site partenaire formation-openclaw.com si vous voulez aller vers de l'IA d'entreprise souveraine.

Avant de pousser un setup multi-modèles en production, pensez à cadrer l'agent avec un bon fichier de configuration projet : notre guide complet du fichier CLAUDE.md montre comment lui transmettre vos conventions, peu importe le modèle derrière.

Une démo en français pour visualiser le tout

La théorie, c'est bien ; voir l'agent tourner en local, c'est mieux. Dans cette vidéo, Korben montre concrètement comment faire fonctionner Claude Code gratuitement avec Ollama et le modèle GLM, en local — un excellent complément visuel à ce guide :

Quel modèle choisir pour coder ?<a id="modeles"></a>

Tous les modèles ne se valent pas pour l'agentic coding, qui exige de bons appels d'outils et un raisonnement multi-étapes fiable. En 2026, les favoris de la communauté sont :

Qwen3 Coder — la référence open-source pour le code, excellent en appels d'outils, disponible en plusieurs tailles (du 7B local au très gros sur cloud).

GLM — très apprécié pour son rapport qualité/coût, populaire dans les setups Ollama locaux.

DeepSeek — fort en raisonnement, économique via OpenRouter.

Kimi K2 — grande fenêtre de contexte, utile pour lire de gros dépôts.

Pour le 100 % local, visez un modèle qui tient dans votre VRAM : un 7B/8B tourne sur une carte grand public, un modèle plus gros demande une station de travail. Pour le cloud low-cost, OpenRouter vous laisse essayer les quatre en cinq minutes. Si vous hésitez encore entre rester sur l'écosystème officiel ou explorer les alternatives, notre comparatif Claude Code vs Gemini CLI pose bien les arbitrages, et l'article combien coûte Claude Code chiffre l'option officielle.

Les limites à connaître avant de migrer<a id="limites"></a>

Soyons honnêtes : brancher Claude Code sur un modèle tiers a un prix caché, la qualité. Voici les pièges à anticiper :

L'écart de raisonnement. Les modèles d'Anthropic restent en tête sur l'agentic coding réel (debug, refactor large, respect des consignes). Un modèle local 7B fera des erreurs qu'Opus ou Sonnet ne feraient pas. Pour les tâches critiques, l'écart se ressent.

Les appels d'outils. Toute la magie de Claude Code repose sur des outils (lire/écrire des fichiers, lancer des commandes). Certains modèles gèrent mal le « tool calling » et provoquent des erreurs (le fameux 404 ou des outils ignorés). Qwen3 Coder et les modèles taillés pour l'agentique s'en sortent le mieux.

La fenêtre de contexte. En local, elle est bridée par votre RAM/VRAM. Un gros projet peut saturer la mémoire et ralentir l'agent.

La maintenance. Un proxy comme Claude Code Router ajoute une couche à déboguer, et les configurations évoluent vite. Ce n'est pas du « zéro entretien ».

La conclusion pragmatique de la plupart des équipes ? Un modèle hybride : Anthropic pour le travail à forte valeur et les tâches sensibles à la qualité, un modèle local ou OpenRouter pour le volume, le brouillon et le code non critique. C'est précisément ce que permet le routage de Claude Code Router.

**Et si la vraie question n'était pas « quel modèle » mais « combien de code vous écrivez encore vous-même » ?** Que vous tourniez sur Opus, Qwen ou GLM, l'enjeu de 2026 n'est plus de taper du code, mais de déléguer des pans entiers de votre développement à des agents bien configurés. Découvrez la méthode complète, du setup jusqu'aux équipes d'agents en production : [**se faire remplacer par l'IA**](/#inscription).

FAQ : Claude Code et les modèles alternatifs<a id="faq"></a>

Peut-on vraiment utiliser Claude Code gratuitement ?

Oui, en pointant ANTHROPIC_BASE_URL vers Ollama en local : l'inférence est gratuite et tourne sur votre machine, sans clé API ni quota. Le seul « coût » est le matériel (CPU/GPU) et l'électricité. Côté cloud, OpenRouter propose aussi des modèles à des tiers gratuits ou à très bas prix.

Est-ce que je perds les fonctionnalités de Claude Code en changeant de modèle ?

Non, vous gardez l'outil : la boucle agentique, le mode plan, les hooks, les sous-agents, les commandes slash. Ce qui change, c'est le modèle qui réfléchit derrière. La qualité de raisonnement et la fiabilité des appels d'outils dépendront donc du modèle choisi, pas de l'interface.

Ollama ou OpenRouter : que choisir ?

Ollama si la confidentialité et le 100 % offline priment, et si votre machine est assez puissante. OpenRouter si vous voulez tester rapidement de nombreux modèles sans installer d'infrastructure, ou si votre matériel est trop limité pour l'inférence locale. Beaucoup combinent les deux via Claude Code Router.

Quel est le meilleur modèle local pour coder avec Claude Code ?

En 2026, Qwen3 Coder fait consensus pour la qualité de ses appels d'outils, suivi de GLM pour son rapport qualité/prix. Choisissez une taille (7B, 14B…) qui tient dans votre VRAM. Pour de gros contextes, Kimi K2 est intéressant ; pour le raisonnement économique, DeepSeek.

Pourquoi Claude Code échoue avec une erreur 404 sur Ollama ?

C'est presque toujours un problème de compatibilité d'API : vérifiez que vous êtes en Ollama v0.14+ (compatibilité native Anthropic Messages), que le modèle est bien téléchargé, et que ANTHROPIC_BASE_URL pointe sur le bon port (11434 par défaut). Un modèle qui ne supporte pas le tool calling provoquera aussi des erreurs.

Est-ce une bonne idée pour un usage professionnel ?

Pour du code non critique, du volume et des environnements sensibles à la confidentialité, oui. Pour les tâches à forte valeur (architecture, debug complexe, sécurité), l'écart de qualité avec les modèles d'Anthropic reste réel. L'approche gagnante est hybride : routez chaque tâche vers le modèle le plus adapté.

Claude Code avec un LLM Local : Ollama, OpenRouter et Claude Code Router (2026)