Token-Geschwindigkeit von llama.cpp auf 16 GB VRAM (Tabellen).
Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.
Daten und Modelle mit selbst gehosteten LLMs kontrollieren
Das Selbst-Hosting von LLMs hält Daten, Modelle und Inferenzen unter Ihrer Kontrolle – ein praktischer Weg zur AI Sovereignty für Teams, Unternehmen und Nationen.
LLM-Geschwindigkeitstest auf RTX 4080 mit 16 GB VRAM
Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und null API-Kosten.
Dieser Benchmark zeigt genau, was man von 14 beliebten LLMs auf Ollama auf einem RTX 4080 erwarten kann.
Heute untersuchen wir die Top-Level-Verbraucher-GPUs und RAM-Module. Speziell betrachte ich die Preise für RTX-5080 und RTX-5090 sowie 32GB (2x16GB) DDR5 6000.
Cognee ist ein Python-Framework zur Erstellung von Wissensgraphen aus Dokumenten mithilfe von LLMs.
Funktioniert es jedoch mit selbstgehosteten Modellen?
Nach der automatischen Installation eines neuen Kernels hat Ubuntu 24.04 das Ethernet-Netzwerk verloren. Dieses frustrierende Problem trat bei mir ein zweites Mal auf, daher dokumentiere ich hier die Lösung, um anderen zu helfen, die dasselbe Problem haben.
Bereitstellung von Enterprise-KI auf kostengünstiger Hardware mit Open-Modellen
Die Demokratisierung der KI ist da.
Mit Open-Source-LLMs wie Llama, Mistral und Qwen, die nun proprietäre Modelle herausfordern, können Teams eine leistungsstarke KI-Infrastruktur mit Consumer-Hardware aufbauen – und dabei die Kosten drastisch senken, während sie die vollständige Kontrolle über Datenschutz und Bereitstellung behalten.
Beschleunigen Sie FLUX.1-dev mit GGUF-Quantisierung
FLUX.1-dev
ist ein leistungsstarkes Text-zu-Bild-Modell, das beeindruckende Ergebnisse liefert, aber dessen Speicherbedarf von über 24GB die Nutzung auf vielen Systemen erschwert.
GGUF-Quantisierung von FLUX.1-dev
bietet eine Lösung, indem sie den Speicherbedarf um etwa 50% reduziert, während die Bildqualität erhalten bleibt.