Installation und Konfiguration von Claude Code für Ollama und llama.cpp, Preise

Agentic Coding, jetzt mit lokalen Modell-Backends.

Inhaltsverzeichnis

Claude Code ist nicht einfach nur Autovervollständigung mit besserem Marketing. Es ist ein agentenbasiertes Coding-Tool: Es liest Ihre Codebasis, editiert Dateien, führt Befehle aus und integriert sich in Ihre Entwicklungstools.

Dieser Unterschied ist relevant, da die Arbeitseinheit nicht mehr „eine Zeile Code“ ist, sondern „eine Aufgabe mit einem Endzustand“.

Anthropic rahmt den Unterschied klar ein: Code-Vervollständigung schlägt die nächste Zeile vor, während Sie tippen, während Claude Code auf Projektebene arbeitet, über mehrere Dateien hinweg plant, Änderungen ausführt, Tests ausführt und bei Fehlern iteriert. In der Praxis ist es damit eher einem terminalnativen Junior-Entwickler ähnlich, der Aufgaben schnell erledigen kann, aber dennoch Überprüfung benötigt.

Diese Spannung zwischen Geschwindigkeit und Aufsicht ist ein großer Teil dessen, was die Menschen unter „Vibe Coding“ zusammenfassen; Was ist Vibe Coding? erklärt den Begriff, seine Herkunft und wie Effizienz und Risiko in der Praxis aussehen.

laptop-homeresver-claude-code-coffee-books

Ein Detail, das beim schnellen Durchlesen der Dokumentation leicht übersehen wird: Die Terminal-CLI (und die VS Code-Oberfläche) können so konfiguriert werden, dass sie Drittanbieter-Provider verwenden. Hier kommen Ollama und llama.cpp ins Spiel.

Sobald Claude Code auf einen lokalen HTTP-Endpunkt zeigt, liegen die Abwägungen bezüglich Runtime, Hardware und Hosting außerhalb des Clients; dieser Vergleich von LLM-Hosting im Jahr 2026 stellt Ollama, dedizierte Inference-Stacks und Cloud-Optionen an einer Stelle zusammen.

Um zu sehen, wie Claude Code neben anderen KI-gestützten Coding- und Delivery-Workflows steht, fasst dieser Leitfaden zu KI-Entwicklertools Copilot-ähnliche Assistenten, Automatisierung und Editor-Muster an einer Stelle zusammen.

Für eine Tool-für-Tool-Übersicht der Coding-Assistenten in derselben Kategorie durchläuft Vergleich von KI-Coding-Assistenten Cursor, Copilot, Cline und den Rest auf einem höheren Niveau als dieser Installationsleitfaden.

Claude Code Installation und Schnellstart

Installationsoptionen und ihre Auswirkungen

Es gibt mehrere Installationspfade, und sie sind nicht gleichwertig:

  • Native Installationsskripte sind die Option für „immer aktuell“, da sie automatisch aktualisiert werden.
  • Homebrew und WinGet sind die Option für „kontrollierte Änderungen“, da Sie explizit upgraden.

Installationsbefehle (offizieller Schnellstart):

# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash
# Windows PowerShell
irm https://claude.ai/install.ps1 | iex
:: Windows CMD
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

Starten Sie dann eine interaktive Sitzung von innerhalb eines Projektordners:

cd /path/to/your/project
claude

Anmeldung und Kontotypen

Claude Code benötigt ein Konto, um im First-Party-Modus zu laufen. Der Schnellstart-Flow unterstützt Anmeldungen über ein Claude-Abo (Pro, Max, Team, Enterprise), ein Console-Konto (API-Guthaben) oder unterstützte Cloud-Anbieter. Ein nützlicher operativer Hinweis: Bei der ersten Console-Anmeldung wird ein „Claude Code“-Workspace für die zentrale Kostennachverfolgung erstellt.

Claude Code Konfiguration: settings.json und Umgebungsvariablen

Wenn Claude Code magisch wirkt, wenn es funktioniert, wirkt es oft „geheimnisvoll“, wenn es nicht funktioniert. Das Heilmittel ist das Verständnis seiner Konfigurationsschichtung und der wenigen Umgebungsvariablen, die tatsächlich wichtig sind.

Einstellungsdateien und Priorität

Claude Code-Einstellungen sind hierarchisch, mit drei für Entwickler sichtbaren Dateien:

  • Benutzerebene, gilt überall: ~/.claude/settings.json
  • Projektebene, geteilt in einem Repository: .claude/settings.json
  • Lokale Ebene, Override pro Maschine: .claude/settings.local.json (gitignored)

Die Priorität ist (von hoch nach niedrig): verwaltete Richtlinien, CLI-Flags, lokal, Projekt, Benutzer. Diese Reihenfolge erklärt mehrere Momente des „Warum wird meine Konfiguration ignoriert“.

Sie können Einstellungen interaktiv über den /config-Befehl verwalten, der eine Einstellungs-UI innerhalb der REPL öffnet.

Umgebungsvariablen, die das Provider-Routing steuern

Claude Code kann zur Laufzeit durch Umgebungsvariablen gesteuert werden. Zwei Verhaltensmerkmale sollten als Designbeschränkungen behandelt werden:

  1. Wenn ANTHROPIC_API_KEY gesetzt ist, verwendet Claude Code den Schlüssel anstelle eines Claude-Abonnements, auch wenn Sie angemeldet sind. Im Print-Modus (-p) wird der Schlüssel immer verwendet, wenn vorhanden.

  2. Wenn ANTHROPIC_BASE_URL auf einen nicht-First-Party-Host (Proxy, Gateway oder lokaler Server) zeigt, sind einige Funktionen absichtlich restriktiv. Beispielsweise ist die MCP-Tool-Suche standardmäßig deaktiviert, es sei denn, Sie aktivieren sie explizit.

Für die spezifische Abonnementgrenze, die jetzt in Agent-Stacks von Drittanbietern durchgesetzt wird, erklärt dieses Claude-Richtlinien-Update für OpenClaw-Workflows warum die API-basierte Nutzung erforderlich ist.

Ein minimales Muster für „Verwendung eines Gateways“ sieht folgendermaßen aus:

export ANTHROPIC_BASE_URL=https://your-gateway.example
export ANTHROPIC_API_KEY=sk-your-key

Gateway-Hinweis: Claude Code erwartet bestimmte API-Formate. Für das Anthropic Messages-Format muss das Gateway /v1/messages und /v1/messages/count_tokens exponieren und die Header anthropic-beta und anthropic-version weiterleiten. Wenn ein Gateway diese Header ablehnt, gibt es einen dedizierten Schalter, um experimentelle Betas zu entfernen.

Modellauswahl in Claude Code, wenn Sie nicht direkt Anthropic verwenden

Claude Code hat ein Konzept von Aliases (opus, sonnet, haiku) und unterstützt auch das Festlegen spezifischer Modell-IDs. Es gibt auch eine Allowlist, die einschränken kann, was Benutzer im Modelldropdown auswählen können, selbst wenn über Drittanbieter-Provider geroutet wird.

Ein pragmatisches Muster besteht darin, ein Anfangsmodell festzulegen und den Picker einzuschränken, und dann zu definieren, was „Standard“ via env auflöst:

{
  "model": "claude-sonnet-4-5",
  "availableModels": ["claude-sonnet-4-5", "haiku"],
  "env": {
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5"
  }
}

Selbst gehostete LLMs über Ollama ausführen

Ollama ist derzeit der Weg mit der geringsten Reibung, um Claude Code mit nicht-Anthropic-Modellen laufen zu lassen, da es eine Anthropic-kompatible API exponiert, mit der Claude Code kommunizieren kann.

Schnelle Einrichtung mit ollama launch

Wenn Sie Ollama installiert und laufend haben, ist der schnelle Weg:

ollama launch claude

Oder spezifizieren Sie ein Modell beim Start:

ollama launch claude --model glm-4.7-flash

Manuelle Einrichtung mit expliziten Umgebungsvariablen

Die Ollama-Integration dokumentiert eine einfache manuelle Verdrahtung, bei der Claude Code über den Anthropic-kompatiblen API-Endpunkt mit Ollama kommuniziert:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

claude --model qwen3.5

Dieses Muster ist auf eine nützliche Weise opinionated: Es behandelt „Provider-Routing“ als eine Angelegenheit der Umgebung, nicht als etwas, das man in einer GUI anklickt.

Realitätscheck zum Kontextfenster

Agentenbasiertes Coding ist kontexthungrig. Ollama sagt es deutlich: Claude Code erfordert ein großes Kontextfenster und empfiehlt mindestens 64k Tokens. Wenn Ihr lokales Modell bei 8k oder 16k aufhört, wird Claude Code zwar noch laufen, aber das Versprechen der „Projektebene“ wird fragil.

Für praktische Erfahrungen mit lokalem Modellverhalten in einer ähnlichen Terminal-Agent-Einrichtung (Ollama und llama.cpp, Coding-Aufgaben und ehrliche Fehlerberichte) ist [Beste LLMs für OpenCode - Lokal getestet](https://www.glukhov.org/de/ai-devtools/opencode/llms-comparison/ “Praktischer Vergleich von LLMs in OpenCode - lokale Ollama- und llama.cpp-Modelle vs. Cloud. Coding-Aufgaben, Statistiken zur Genauigkeit von Migrationskarten und ehrliche Fehleranalyse.”} ein nützlicher Quervergleich, wenn Sie GGUF- oder Ollama-Tags für Claude Code auswählen.

Selbst gehostete LLMs über llama.cpp ausführen

llama.cpp ist aus dem entgegengesetzten Grund attraktiv: Es versucht nicht, eine Plattform zu sein. Es ist ein schneller, leichter Server, der sowohl OpenAI-kompatible Routen als auch eine Anthropic Messages API-kompatible Route exponieren kann.

Für Installationspfade, llama-cli und llama-server-Verhalten jenseits der untenstehenden Snippets ist llama.cpp Schnellstart mit CLI und Server die Referenz von Anfang bis Ende.

Was auf der Serverseite ausgeführt werden sollte

Der llama.cpp-HTTP-Server (llama-server) unterstützt eine Anthropic-kompatible Messages API unter POST /v1/messages, mit Streaming via SSE. Er bietet auch count_tokens unter /v1/messages/count_tokens.

Zwei Details sind für Claude Code wichtig:

  • Der Server macht explizit keine starken Behauptungen bezüglich vollständiger Kompatibilität mit der Anthropic API-Spezifikation, gibt aber an, dass es für viele Apps gut genug funktioniert.
  • Tool-Use erfordert, dass llama-server mit dem –jinja-Flag gestartet wird. Wenn Sie dies verpassen, verhält sich Claude Code, als hätte es plötzlich vergessen, wie man ein Agent ist.

Ein minimales lokales Aussehen sieht so aus:

# Erstellen oder herunterladen von llama-server, dann mit einem GGUF-Modell ausführen
./llama-server -m /models/your-model.gguf --jinja --host 127.0.0.1 --port 8080

Wenn Sie eine harte Authentifizierungsgrenze wünschen, kann llama-server mit einem API-Schlüssel konfiguriert werden:

./llama-server -m /models/your-model.gguf --jinja --api-key my-local-key --host 127.0.0.1 --port 8080

Claude Code auf llama-server zeigen

Mit dem laufenden Server ist Ihre Claude Code-Seite hauptsächlich ein Base-URL-Override:

export ANTHROPIC_BASE_URL=http://127.0.0.1:8080
export ANTHROPIC_API_KEY=my-local-key   # nur wenn Sie --api-key auf llama-server aktiviert haben

claude --model your-model-alias

Wenn Sie keinen API-Schlüssel oder Authentifizierungstoken setzen, kann Claude Code versuchen, auf die Abonnement-Anmeldung zurückzugreifen, was die Quelle vieler Beschwerden darüber ist, „warum öffnet es einen Browser“.

Health-Checks und erste Fehlerbehebung

llama-server exponiert einen einfachen Health-Endpunkt, der „loading model“ zurückgibt, bis das Modell bereit ist, und „ok“, wenn es nutzbar ist. Wenn Claude Code bei der ersten Anfrage zu hängen scheint, ist das Überprüfen von /health ein schneller Weg, um „Client-Konfigurationsfehler“ von „Server lädt noch“ zu unterscheiden.

Preisgestaltung und Kostenmodell

Die Preisgestaltung von Claude Code dreht sich weniger um „Kauf einer CLI“ und mehr um „welche Abrechnungsstrecke die Tokens unterstützt“.

Abonnementpläne beinhalten Claude Code

Anthropic schließt Claude Code in bezahlte Claude-Abonnementstufen ein. Stand April 2026 listet die veröffentlichte Preisgestaltung:

  • Pro für $17 pro Monat mit Jahresrabatt ($200 im Voraus abgebucht), oder $20 monatlich abgebucht, und es beinhaltet Claude Code.
  • Max-Pläne ab $100 pro Monat.
  • Team-Pläne pro Sitzpreis, mit einem Standard-Sitz für $20 pro Sitz pro Monat bei jährlicher Abrechnung ($25 monatlich) und einem Premium-Sitz für $100 pro Sitz pro Monat bei jährlicher Abrechnung ($125 monatlich).

API-Token-Preisgestaltung

Wenn Sie Claude Code über API-Abrechnung verwenden, folgen die Kosten den Token-Raten. Anthropic veröffentlicht Preisgestaltung pro Million Tokens (MTok) für Modelle wie:

  • Haiku 4.5 bei $1/MTok Input und $5/MTok Output.
  • Sonnet 4.5 bei $3/MTok Input und $15/MTok Output.
  • Opus 4.5 bei $5/MTok Input und $25/MTok Output.

Kostenkontrollen in der CLI

Der Print-Modus (-p) unterstützt direkte Budgetgrenzen wie –max-budget-usd, was praktisch ist, wenn Sie Aufgaben skripten und vorhersehbare Ausgaben wünschen.

In interaktiven Sitzungen zeigt /cost Token-Nutzungsstatistiken an.

Lokale Backends ändern die Rechnung, nicht die Physik

Das Routing von Claude Code zu Ollama oder llama.cpp kann pro-Token-API-Rechnungen entfernen, macht die Arbeit aber nicht kostenlos. Sie tauschen Cloud-Kosten gegen lokale Rechenleistung, Speicher und „jemand trägt die Verantwortung für die Verfügbarkeit“ aus. Für einige Teams ist dieser Trade-off der ganze Punkt.

Typischer Workflow: von Plan zu PR

Meine Voreinstellung ist, dass Claude Code am stärksten ist, wenn man es als Workflow-Engine behandelt, nicht als Chatbot. Die Tooling-Hinweise deuten darauf hin.

Beginnen Sie mit dem Berechtigungsmodell, nicht mit dem Prompt

Claude Code ist per Design berechtigungsbasiert. Die Docs beschreiben ein gestaffeltes Modell: Nur-Lese-Operationen wie Datei-Lesen und grep sind erlaubt, während Bash-Befehle und Datei-Modifikationen Genehmigung benötigen.

Berechtigungsmodi existieren, um die Reibung zu managen. In der CLI können Sie Modus wechseln mit Shift+Tab (default -> acceptEdits -> plan). Der Plan-Modus liest und schlägt Änderungen vor, editiert aber nicht. Der acceptEdits-Modus erlaubt Claude Code, Dateien in Ihrem Arbeitsverzeichnis zu erstellen und zu editieren, ohne nachzufragen, fragt jedoch immer noch nach Befehlen mit Seiteneffekten außerhalb seiner sicheren Liste.

Der Auto-Modus ist eine neuere Option, die Prompts reduziert, indem Genehmigungen an einen Klassifizierer delegiert werden, positioniert als sicherer Mittelweg zwischen konstanten Prompts und vollständiger Deaktivierung von Prompts. Er erfordert eine Mindestversion von Claude Code und bestimmte Plan- und Modell-Anforderungen.

Verwenden Sie integrierte Befehle, um Sitzungen ehrlich zu halten

Ein paar Befehle verwandeln Claude Code von „Assistent“ in „Tooling“:

  • /init generiert einen CLAUDE.md-Projektguide, was eine leichtgewichtige Möglichkeit ist, konsistenten Kontext zu liefern. Für wiederverwendbare Playbooks und wiederholbare Workflows, die über CLAUDE.md liegen, deckt [Claude Skills für Entwickler](https://www.glukhov.org/de/ai-devtools/claude-code/claude-skills-for-developers/ “Erstellen Sie Claude Skills für VS Code, JetBrains und Cursor — SKILL.md-Layout, Ordnerkonventionen, Trigger-Tuning, Tests und Fehlerbehebung.”} SKILL.md-Layout, IDE-Kompatibilität, Trigger-Tuning und Tests ab.
  • /diff gibt eine interaktive Ansicht der Änderungen, einschließlich pro-Turn-Diffs.
  • /rewind lässt Sie Gespräch und/oder Code zu einem vorherigen Punkt zurückspulen, unter Verwendung von Checkpoints.
  • /debug aktiviert Debug-Logging mitten in der Sitzung.
  • /doctor diagnostiziert und verifiziert Ihre Installation und Einstellungen.

Das sind keine Gimmicks; das sind die Sicherheitsgurte, auf die Sie sich verlassen, wenn ein Agent mehr editiert, als Sie erwartet haben.

Wann nicht-interaktiv gehen

Für One-Shot-Aufgaben (erklären, zusammenfassen, Patch-Plan generieren) ist der Print-Modus gut geeignet:

claude -p "Fasse die Repository-Architektur zusammen und liste die riskantesten Module auf"

Er beendet sich nach der Antwort, was gut in Skripten und CI funktioniert.

Fehlerbehebungs-Checkliste

Die meisten Claude Code-Probleme sind im Grunde Konfigurationsprobleme. Hier ist eine Checkliste, die häufige Symptome auf den zugrunde liegenden Mechanismus abbildet.

Claude Code fragt ständig nach der Anmeldung, während ein lokaler Server verwendet wird

Das bedeutet typischerweise, dass Claude Code immer noch versucht, die First-Party-Abonnement-Authentifizierung zu verwenden. Stellen Sie sicher, dass Sie einen expliziten Auth-Modus für den Proxy setzen:

  • Setzen Sie ANTHROPIC_API_KEY für Gateways, die X-Api-Key erwarten.
  • Oder setzen Sie ANTHROPIC_AUTH_TOKEN für Gateways, die Authorization Bearer verwenden.

Denken Sie daran, dass ANTHROPIC_API_KEY die Abonnement-Nutzung überschreibt, auch wenn Sie angemeldet sind, und im interaktiven Modus müssen Sie diese Überschreibung einmal genehmigen.

Das Gateway gibt Fehler bei anthropic-beta-Headern zurück

Einige Gateways lehnen unbekannte Header oder Beta-Felder ab. Es gibt eine Umgebungsvariable, die genau für diesen Fehlermodus entwickelt wurde:

export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1

Die LLM-Gateway-Dokumentation bemerkt auch, dass Sie dies möglicherweise benötigen, wenn Sie das Anthropic Messages-Format mit Bedrock oder Vertex verwenden.

Tool-Calling funktioniert nicht bei llama.cpp

Überprüfen Sie die Server-Flags. llama-server dokumentiert, dass Tool-Use das –jinja-Flag erfordert. Ohne es kann der Server antworten, aber der Agent-Loop wird sich verschlechtern.

Berechtigungs-Prompts unterbrechen jeden Befehl

Das kann normal sein, abhängig von Modus und Berechtigungsregeln. Optionen umfassen:

  • Temporäres Wechseln zu acceptEdits (Datei-Edits fließen schneller).
  • Schreiben expliziter Allow-Regeln für bekannte-sichere Bash-Befehle in settings.json.
  • Verwenden von /sandbox, um das Bash-Tool zu isolieren und dabei Prompts zu reduzieren.
  • Evaluieren des Auto-Modus, wenn Ihr Plan und Ihre Version ihn unterstützen, als Mittelweg.

Etwas stimmt nicht und Sie benötigen Observability

Verwenden Sie die Eingebauten:

  • /doctor, um Installation und Einstellungen zu validieren.
  • /debug, um das Erfassen von Logs ab diesem Punkt zu starten.
  • Wenn Sie im Print-Modus sind, erwägen Sie ein enges max budget und max turns, um Experimente begrenzt zu halten.

Die Position von Claude Code als geschütztes First-Party-Tool von Anthropic wurde im April 2026 strategisch bedeutend, als Anthropic den Zugang zu Claude-Abonnements für Agent-Frameworks von Drittanbietern blockierte, während es Claude Code auf Abonnementabrechnung behielt. Die [OpenClaw-Aufstieg-und-Fall-Zeitachse](https://www.glukhov.org/de/ai-systems/openclaw/openclaw-rise-and-fall-timeline/ “Wie OpenClaw auf 247.000 GitHub-Sterne wuchs und dann zusammenbrach, als Anthropic den Zugang zu Claude-Abonnements blockierte.”} deckt dieses Ereignis und dessen, was es über den Ansatz von Anthropic bezüglich First-Party- versus Third-Party-Tooling offenbart.

Abonnieren

Neue Beiträge zu Systemen, Infrastruktur und KI-Engineering.