Ollama

Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.

Remote-Zugriff auf Ollama über Tailscale oder WireGuard, ohne öffentliche Ports

Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

Die besten LLMs für OpenCode – Von Gemma 4 bis Qwen 3.6, lokal getestet

Ich habe getestet, wie sich OpenCode mit mehreren lokal auf Ollama und llama.cpp gehosteten LLMs verhält, und habe zum Vergleich einige kostenlose Modelle von OpenCode Zen hinzugefügt.

OpenClaw Schnellstart: Installation mit Docker (Ollama GPU oder Claude + CPU)

OpenClaw ist ein selbst gehosteter KI-Assistent, der mit lokalen LLM-Runtimes wie Ollama oder mit cloud-basierten Modellen wie Claude Sonnet ausgeführt werden kann.

LLM-Hosting 2026: Vergleich lokaler, selbstgehosteter und Cloud-Infrastrukturen

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-Leistung 2026: Benchmarks, Engpässe und Optimierung

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Selbstgehostete LLMs und AI-Souveränität

Das Selbst-Hosting von LLMs hält Daten, Modelle und Inferenzen unter Ihrer Kontrolle – ein praktischer Weg zur AI Sovereignty für Teams, Unternehmen und Nationen.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und null API-Kosten.
Dieser Benchmark zeigt genau, was man von 14 beliebten
LLMs auf Ollama auf einem RTX 4080 erwarten kann.

Top 19 Trendige Go-Projekte auf GitHub - Januar 2026

Das Go-Ökosystem floriert weiterhin mit innovativen Projekten, die sich auf KI-Tools, selbstgehostete Anwendungen und Entwicklerinfrastruktur erstrecken. Diese Übersicht analysiert die Top-Trending-Go-Repositories auf GitHub diesen Monat.

Open WebUI: Selbstgehostete LLM-Schnittstelle

Open WebUI ist eine leistungsstarke, erweiterbare und umfangreiche selbstgehostete Web-Schnittstelle zur Interaktion mit großen Sprachmodellen.

DGX Spark AU-Preisgestaltung: 6.249–7.999 USD bei großen Einzelhändlern

Die NVIDIA DGX Spark (GB10 Grace Blackwell) ist in Australien bei großen PC-Händlern mit lokaler Lagerbestellung erhältlich. Wenn Sie die globalen Preise und die Verfügbarkeit des DGX Spark verfolgt haben, werden Sie wissen wollen, dass die Preise in Australien je nach Speicherkonfiguration und Händler zwischen 6.249 und 7.999 AUD liegen.

Selbsthosting von Cognee: Auswahl des LLM mit Ollama

Cognee ist ein Python-Framework zur Erstellung von Wissensgraphen aus Dokumenten mithilfe von LLMs. Funktioniert es jedoch mit selbstgehosteten Modellen?

BAML vs Instructor: Strukturierte LLM-Ausgaben

Wenn Sie mit Large Language Models in der Produktion arbeiten, ist es entscheidend, strukturierte, typensichere Ausgaben zu erhalten. Zwei beliebte Frameworks - BAML und Instructor - gehen unterschiedliche Wege, um dieses Problem zu lösen.