Installatie en configuratie van Claude Code voor Ollama en llama.cpp, plus prijzen

Agentisch coderen, nu met lokale modelbackends.

Inhoud

Claude Code is geen autocomplete met beter marketing. Het is een agentisch codeerinstrument: het leest uw codebase, bewerkte bestanden, voert commando’s uit en integreert met uw ontwikkeltools.

Dat verschil maakt uit omdat de eenheid van werk stopt met “een regel code” en begint met “een taak met een eindtoestand”.

Anthropic schetst het onderscheid duidelijk: codevoltooiing suggereert de volgende regel terwijl u typt, terwijl Claude Code op projectniveau opereert, plannen over meerdere bestanden uitvoert, wijzigingen uitvoert, tests draait en iteratie doet op mislukkingen. In de praktijk maakt dit het dichter bij een terminal-native junior ingenieur die taken snel kan uitvoeren, maar toch toezicht nodig heeft.

Die spanning tussen snelheid en toezicht is een groot deel van wat mensen onder “vibe coding” bundelen; Wat is Vibe Coding? ontvouwt de term, waar het vandaan komt en hoe efficiëntie en risico er in de praktijk uitzien.

laptop-homeresver-claude-code-coffee-books

Een detail dat gemakkelijk over het hoofd wordt gezien bij het scannen van documentatie: de Terminal CLI (en de VS Code-superficie) kan worden geconfigureerd om derde-party providers te gebruiken. Daar komen Ollama en llama.cpp in beeld.

Zodra Claude Code naar een lokaal HTTP-endpoint wijst, zitten de runtime-, hardware- en hosting-overwegingen buiten de client; dit vergelijk van LLM-hosting in 2026 plaatst Ollama, dedicated inferentie-stacks en cloudopties op één plek.

Om te zien hoe Claude Code naast andere AI-geassisteerde codeer- en leveringsworkflows past, trekt deze gids voor AI-ontwikkelaars Copilot-achtige assistenten, automatisering en editorpatroons naar één plek.

Voor een tool-naar-tool overzicht van codeerassistenten in dezelfde categorie, AI Coding Assistants Comparison loopt door Cursor, Copilot, Cline en de rest op een hoger niveau dan deze installatiegids.

Claude Code installatie en quickstart

Installatieopties en wat ze impliceren

Er zijn verschillende installatiemethoden en ze zijn niet gelijk:

Native installatiescripts zijn de “altijd actueel”-optie omdat ze zichzelf updaten.
Homebrew en WinGet zijn de “gecontroleerde wijziging”-optie omdat u expliciet upgradet.

Installatiecommando’s (officiële quickstart):

# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash

# Windows PowerShell
irm https://claude.ai/install.ps1 | iex

:: Windows CMD
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

Start vervolgens een interactieve sessie binnen een projectmap:

cd /path/to/your/project
claude

Aanmelden en accounttypes

Claude Code heeft een account nodig om in de eerste-party-modus te draaien. De quickstart-flow ondersteunt aanmelding via een Claude-abonnement (Pro, Max, Team, Enterprise), een Console-account (API-credits) of ondersteunde cloudproviders. Een nuttige operationele voetnoot: bij het eerste Console-login wordt een “Claude Code”-workspace aangemaakt voor gecentraliseerd kostentoegankelijkheid.

Claude Code-configuratie: settings.json en omgevingsvariabelen

Als Claude Code magisch voelt als het werkt, voelt het vaak “mysterieus” als het niet werkt. De remedie is het begrijpen van zijn configuratielaag en de paar omgevingsvariabelen die er echt toe doen.

Configuratiebestanden en prioriteit

Claude Code-instellingen zijn hiërarchisch, met drie voor ontwikkelaars bestemde bestanden:

Gebruikersbereik, geldt overal: ~/.claude/settings.json
Projectbereik, gedeeld in een repo: .claude/settings.json
Lokaal bereik, per-machine overrides: .claude/settings.local.json (gitignored)

Prioriteit is (van hoog naar laag): beheerde beleid, CLI-vlaggen, lokaal, project, gebruiker. Die volgorde verklaart verschillende “waarom wordt mijn configuratie genegeerd”-momenten.

U kunt instellingen interactief beheren via het /config-commando, dat een instellingen-UI opent binnen de REPL.

Omgevingsvariabelen die provider-routing bepalen

Claude Code kan op runtime worden gestuurd door omgevingsvariabelen. Twee gedragseigenschappen zijn het waard om als ontwerpbepalingen te behandelen:

Als ANTHROPIC_API_KEY is ingesteld, gebruikt Claude Code de sleutel in plaats van een Claude-abonnement, zelfs als u bent aangemeld. In print-modus (-p) wordt de sleutel altijd gebruikt als deze aanwezig is.
Als ANTHROPIC_BASE_URL wijst naar een niet-eerste-party-host (een proxy, gateway of lokale server), zijn sommige functies opzettelijk conservatief. Bijvoorbeeld, MCP-toolzochting is standaard uitgeschakeld tenzij u het expliciet inschakelt.

Voor de specifieke abonnementsgrens die nu wordt afgedwongen in third-party agent stacks, verklaart dit Claude-beleid-update voor OpenClaw-workflows waarom API-gebaseerd gebruik vereist is.

Een minimale “gebruik een gateway”-patroon ziet er zo uit:

export ANTHROPIC_BASE_URL=https://your-gateway.example
export ANTHROPIC_API_KEY=sk-your-key

Gateway-opmerking: Claude Code verwacht bepaalde API-indelingen. Voor het Anthropic Messages-indeling moet de gateway /v1/messages en /v1/messages/count_tokens blootstellen en moet hij anthropic-beta en anthropic-version-headers doorsturen. Als een gateway deze headers afwijst, is er een dedicated knop om experimentele betas te verwijderen.

Modelselectie in Claude Code wanneer u Anthropic niet direct gebruikt

Claude Code heeft het concept van aliassen (opus, sonnet, haiku) en ondersteunt ook het vastpinnen van specifieke model-ID’s. Er is ook een whitelist die kan beperken wat gebruikers in de modelkiezer kunnen selecteren, zelfs als ze via third-party providers worden gerouteerd.

Een pragmatisch patroon is om een beginmodel in te stellen en de kiezer te beperken, en vervolgens te pinnen wat “standaard” oplost via env:

{
  "model": "claude-sonnet-4-5",
  "availableModels": ["claude-sonnet-4-5", "haiku"],
  "env": {
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5"
  }
}

Zelfgehoste LLM’s draaien via Ollama

Ollama is momenteel de laagste-frictiewijze om Claude Code te laten draaien op niet-Anthropic-modellen, omdat het een Anthropic-compatibele API blootlegt waarmee Claude Code kan communiceren.

Snelle setup met ollama launch

Als u Ollama geïnstalleerd en draaiend heeft, is het snelle pad:

ollama launch claude

Of specificeer een model bij het opstarten:

ollama launch claude --model glm-4.7-flash

Handmatige setup met expliciete omgevingsvariabelen

De Ollama-integratie documenteert een simpele handmatige bedrading waarbij Claude Code met Ollama praat via het Anthropic-compatibele API-endpoint:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

claude --model qwen3.5

Dit patroon is op een nuttige manier meninghebbend: het behandelt “provider-routing” als een omgevingsprobleem, niet iets dat u in een GUI klikt.

Contextvenster realiteitscheck

Agentisch coderen is context-hongerig. Ollama noemt het scherp: Claude Code vereist een groot contextvenster en beveelt ten minste 64k tokens aan. Als uw lokale model uitkomt op 8k of 16k, zal Claude Code nog steeds draaien, maar de “project-level”-belofte wordt fragiel.

Voor hands-on lokaal modelgedrag in een vergelijkbare terminal-agent-opzet (Ollama en llama.cpp, codeertaken en eerlijke mislukkingnotities), Beste LLM’s voor OpenCode - Lokaal getest is een nuttige kruiscontrole wanneer u GGUF- of Ollama-tags kortliijst voor Claude Code.

Zelfgehoste LLM’s draaien via llama.cpp

llama.cpp is aantrekkelijk om de tegenovergestelde reden: het probeert geen platform te zijn. Het is een snelle, lichtgewicht server die zowel OpenAI-compatibele routes als een Anthropic Messages API-compatibele route kan blootleggen.

Voor installatiepaden, llama-cli en llama-server-gedrag buiten de onderstaande fragmenten, llama.cpp Quickstart met CLI en Server is de end-to-end referentie.

Wat er op de serverside moet draaien

De llama.cpp HTTP-server (llama-server) ondersteunt een Anthropic-compatibele Messages API op POST /v1/messages, met streaming via SSE. Het biedt ook count_tokens op /v1/messages/count_tokens.

Twee details zijn belangrijk voor Claude Code:

De server maakt expliciet geen sterke claims over volledige Anthropic API-spec-compatibiliteit, maar stelt dat het goed genoeg werkt voor veel apps.
Toolgebruik vereist dat llama-server wordt gestart met de –jinja-vlag. Als u dit mist, zal Claude Code zich gedragen alsof het plotseling vergeet hoe het een agent moet zijn.

Een minimale lokale run ziet er zo uit:

# Build of download llama-server, en draai met een GGUF-model
./llama-server -m /models/your-model.gguf --jinja --host 127.0.0.1 --port 8080

Als u een harde auth-grens wilt, kan llama-server worden geconfigureerd met een API-sleutel:

./llama-server -m /models/your-model.gguf --jinja --api-key my-local-key --host 127.0.0.1 --port 8080

Wijs Claude Code naar llama-server

Met de server draaiend, is uw Claude Code-kant voornamelijk een base URL-overheersing:

export ANTHROPIC_BASE_URL=http://127.0.0.1:8080
export ANTHROPIC_API_KEY=my-local-key   # alleen als u --api-key op llama-server hebt ingeschakeld

claude --model your-model-alias

Als u geen API-sleutel of auth-token instelt, kan Claude Code proberen terug te vallen op abonnementslogin, wat de bron is van veel “waarom opent het een browser”-klachten.

Health checks en eerste mislukkingstriage

llama-server blootlegt een simpele health-endpoint die “loading model” retourneert totdat het model klaar is, en “ok” wanneer het bruikbaar is. Wanneer Claude Code lijkt te hangen op de eerste aanvraag, is het controleren van /health een snelle manier om “client-configuratiebug” te onderscheiden van “server laadt nog”.

Prijzen en kostenmodel

Claude Code-prijzen gaan minder over “een CLI kopen” en meer over “welke factuurlijn de tokens ondersteunt”.

Abonnementen plannen omvatten Claude Code

Anthropic omvat Claude Code in betaalde Claude-abonnementstiers. Per april 2026, de gepubliceerde prijzenlijst:

Pro voor $17 per maand met een jaarlijks korting ($200 vooraf gefactureerd), of $20 per maand gefactureerd, en het omvat Claude Code.
Max-plannen beginnend bij $100 per maand.
Team-plannen geprijsd per zetel, met een standaard zetel van $20 per zetel per maand jaarlijks gefactureerd ($25 per maand) en een premium zetel van $100 per zetel per maand jaarlijks gefactureerd ($125 per maand).

API-token prijzen

Als u Claude Code via API-facturatie gebruikt, volgen kosten token-tarieven. Anthropic publiceert per-miljoen-token (MTok) prijzen voor modellen zoals:

Haiku 4.5 voor $1/MTok input en $5/MTok output.
Sonnet 4.5 voor $3/MTok input en $15/MTok output.
Opus 4.5 voor $5/MTok input en $25/MTok output.

Kostencontroles in de CLI

Print-modus (-p) ondersteunt directe begrotingslimieten zoals –max-budget-usd, wat handig is wanneer u taken script en voorspelbare uitgaven wilt.

Binnen interactieve sessies, /cost toont token-gebruikstatistieken.

Lokale backends veranderen de rekening, niet de fysica

Het routeren van Claude Code naar Ollama of llama.cpp kan per-token API-rekeningen verwijderen, maar het maakt het werk niet gratis. U wisselt cloudkosten in voor lokale compute, geheugen en “iemand bezit uptime”. Voor sommige teams is die afweging het hele punt.

Typische workflow: van plan naar PR

Mijn voorkeur is dat Claude Code het sterkst is wanneer u het behandelt als een workflow-engine, niet als een chatbot. De tooling suggereert dit.

Begin met het toestemmingsmodel, niet de prompt

Claude Code is toestemmingsgeblokkeerd per ontwerp. De documentatie beschrijft een gelaagd model: read-only operaties zoals bestandlezingen en grep zijn toegestaan, terwijl bash-commando’s en bestandswijzigingen goedkeuring nodig hebben.

Toestemmingsmodi bestaan om de wrijving te beheren. In de CLI kunt u modi wisselen met Shift+Tab (standaard -> acceptEdits -> plan). Plan-modus leest en stelt wijzigingen voor maar bewerkt niet. acceptEdits-modus stelt Claude Code toe bestanden te maken en te bewerken in uw werkmap zonder aan te moedigen, terwijl het nog steeds vraagt voor commando’s met bijwerkingen buiten zijn veilige lijst.

Auto-modus is een nieuwere optie die prompts vermindert door goedkeuringen delegeren aan een classifier, gepositioneerd als een veiligere middenweg tussen constante prompts en het volledig uitschakelen van prompts. Het vereist een minimum Claude Code-versie en specifieke plan- en modelvereisten.

Gebruik ingebouwde commando’s om sessies eerlijk te houden

Enkele commando’s zetten Claude Code van “assistent” naar “tooling”:

/init genereert een CLAUDE.md-projectgids, wat een lichtgewicht manier is om consistente context te voeden. Voor herbruikbare spelplannen en herhaalbare workflows die boven CLAUDE.md zitten, Claude Skills voor ontwikkelaars behandelt SKILL.md-layout, IDE-compatibiliteit, triggerafstemming en testen.
/diff geeft een interactieve weergave van wijzigingen, inclusief per-turn diffs.
/rewind stelt u in staat conversatie en/of code terug te draaien naar een eerder punt, met behulp van checkpoints.
/debug schakelt debug-logging in midden in de sessie.
/doctor diagnosticeert en verifieert uw installatie en instellingen.

Dit zijn geen gimmicks; het zijn de veiligheidsrails waarop u leunt wanneer een agent meer bewerkt dan u verwachtte.

Wanneer niet-interactief gaan

Voor one-shot-taken (uitleggen, samenvatten, een patchplan genereren), is print-modus een goede fit:

claude -p "Samenvatting van de repository-architectuur en lijst van de risicovolste modules"

Het sluit na het antwoord, wat goed werkt in scripts en CI.

Probleemoplossingscontrolelijst

De meeste Claude Code-problemen zijn in feite configuratieproblemen. Hier is een controlelijst die veelvoorkomende symptomen koppelt aan de onderliggende mechanisme.

Claude Code blijft vragen om aan te melden terwijl een lokale server wordt gebruikt

Dit betekent doorgaans dat Claude Code nog steeds probeert eerste-party abonnementsauth te gebruiken. Zorg dat u een expliciete auth-modus instelt voor de proxy:

Stel ANTHROPIC_API_KEY in voor gateways die X-Api-Key verwachten.
Of stel ANTHROPIC_AUTH_TOKEN in voor gateways die Authorization Bearer gebruiken.

Onthoud dat ANTHROPIC_API_KEY abonnementsgebruik overschrijft, zelfs als u bent aangemeld, en in interactieve modus u mogelijk dat overschrijding één keer moet goedkeuren.

De gateway geeft fouten op anthropic-beta-headers

Sommige gateways wijzen onbekende headers of beta-velden af. Er is een omgevingsvariabele ontworpen voor deze exacte mislukkingmodus:

export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1

De LLM-gateway-documentatie merkt ook op dat u dit nodig kunt hebben bij het gebruik van het Anthropic Messages-indeling met Bedrock of Vertex.

Toolcalling werkt niet op llama.cpp

Dubbelcheck servervlaggen. llama-server documenteert dat toolgebruik de –jinja-vlag vereist. Zonder het kan de server reageren, maar de agent-loop zal degraderen.

Toestemmingsprompts onderbreken elk commando

Dat kan normaal zijn, afhankelijk van modus en toestemmingsregels. Opties omvatten:

Tijdelijk wisselen naar acceptEdits (bestandswijzigingen vloeien sneller).
Het schrijven van expliciete toelaatregels voor bekende veilige bash-commando’s in settings.json.
Het gebruiken van /sandbox om het bash-tool te isoleren terwijl prompts worden vermindert.
Het evalueren van auto-modus als uw plan en versie het ondersteunen, als een middenweg.

Iets voelt niet goed en u hebt observabiliteit nodig

Gebruik de ingebouwden:

/doctor om installatie en instellingen te valideren.
/debug om logboeken te beginnen vanaf dat punt.
Als u in print-modus bent, overweeg dan een strakke max budget en max turns om experimenten begrensd te houden.