Self-Hosting

vLLM Quickstart: Hochleistungs-LLM-Serving

vLLM Quickstart: Hochleistungs-LLM-Serving

Schnelle LLM-Inferenz mit der OpenAI-API

vLLM ist ein hochleistungsfähiger, speichereffizienter Inference- und Serving-Engine für Large Language Models (LLMs), entwickelt vom Sky Computing Lab der UC Berkeley.

Verwendung der Ollama Web Search API in Python

Verwendung der Ollama Web Search API in Python

AI-Suchagenten mit Python und Ollama erstellen

Ollamas Python-Bibliothek umfasst nun native OLlama Websuche-Funktionen. Mit nur wenigen Codezeilen können Sie Ihre lokalen LLMs mit Echtzeitinformationen aus dem Web erweitern, um Halluzinationen zu reduzieren und die Genauigkeit zu verbessern.

Vektor-Speicher für RAG-Vergleiche

Vektor-Speicher für RAG-Vergleiche

Wählen Sie die richtige Vektordatenbank für Ihren RAG-Stack

Die Wahl des richtigen Vektor-Speichers kann über Leistung, Kosten und Skalierbarkeit Ihrer RAG-Anwendung entscheiden. Dieser umfassende Vergleich deckt die beliebtesten Optionen für 2024-2025 ab.

KI-Infrastruktur auf Consumer-Hardware

KI-Infrastruktur auf Consumer-Hardware

Enterprise-KI auf Budget-Hardware mit Open-Modellen einsetzen

Die Demokratisierung von KI ist da. Mit Open-Source-LLMs wie Llama 3, Mixtral und Qwen, die nun mit proprietären Modellen mithalten, können Teams leistungsstarke KI-Infrastruktur mit Consumer-Hardware aufbauen - Kosten senken, während sie die vollständige Kontrolle über Datenschutz und Bereitstellung behalten.

StatefulSets & Persistente Speicherung in Kubernetes

StatefulSets & Persistente Speicherung in Kubernetes

Bereitstellen von zustandsbehafteten Anwendungen mit geordneter Skalierung und persistenter Daten

Kubernetes StatefulSets sind die optimale Lösung für die Verwaltung von zustandsbehafteten Anwendungen, die stabile Identitäten, dauerhafte Speicherung und geordnete Bereitstellungsmuster benötigen – essenziell für Datenbanken, verteilte Systeme und Caching-Schichten.