LLM

Ollama-Enshittification – die frühen Anzeichen

Ollama hat sich schnell zu einem der beliebtesten Tools zur lokalen Ausführung von LLMs entwickelt. Seine einfache CLI und die nahtlose Modellverwaltung haben es zu einer bevorzugten Option für Entwickler gemacht, die mit AI-Modellen außerhalb der Cloud arbeiten möchten.

Chat-Oberflächen für lokale Ollama-Instanzen

Locally gehostete Ollama ermöglicht es, große Sprachmodelle auf Ihrem eigenen Gerät auszuführen, aber die Verwendung über die Befehlszeile ist nicht benutzerfreundlich. Hier sind mehrere Open-Source-Projekte, die ChatGPT-ähnliche Schnittstellen bereitstellen, die mit einer lokalen Ollama verbunden sind.

NVIDIA DGX Spark – ein neues kleines KI-Supercomputer-System

Nvidia gibt bald NVIDIA DGX Spark heraus – einen kleinen KI-Supercomputer auf Blackwell-Architektur mit über 128 GB einheitlichem Arbeitsspeicher und 1 PFLOPS KI-Leistung. Ein hervorragendes Gerät zum Betreiben von LLMs.

Modellkontextprotokoll (MCP) und Anmerkungen zur Implementierung eines MCP-Servers in Go

Hier haben wir eine Beschreibung des Model Context Protocol (MCP), kurze Notizen zur Implementierung eines MCP-Servers in Go, einschließlich der Nachrichtenstruktur und Protokollspezifikationen.

Dokumente mit Ollama und dem Qwen3 Reranker-Modell neu sortieren – in Go

Da der Standard-Ollama keine direkte Rerank-API bietet, müssen Sie das Reranking mit dem Qwen3 Reranker in GO implementieren, indem Sie Embeddings für Abfrage-Dokumenten-Paare generieren und diese bewerten.

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo- Seiten von englisch auf deutsch übersetzen.

Neuranking von Texten mit Ollama und Qwen3 Embedding-LLM – in Go

Dieses kleine Go-Code-Beispiel für das Neuranking ruft Ollama auf, um Embeddings zu generieren für die Abfrage und für jedes Kandidatendokument, sortiert dann absteigend nach der Kosinus-Ähnlichkeit.

Qwen3-Embedding- und Reranker-Modelle auf Ollama: State-of-the-Art-Leistung

Die Qwen3 Embedding- und Reranker-Modelle sind die neuesten Veröffentlichungen in der Qwen-Familie und wurden speziell für fortgeschrittene Text-Einbettungs-, Abruf- und Neuklassifizierungsaufgaben entwickelt.

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

Wie PCIe-Lanes die Leistung von LLMs beeinflussen? Je nach Aufgabe. Bei Training und Multi-GPU- Inferenz ist der Leistungsverlust erheblich.

HTML-Inhalt in Markdown konvertieren mit LLM und Ollama

Im Ollama-Modell-Repository gibt es Modelle, die in der Lage sind, HTML-Inhalt in Markdown umzuwandeln, was für Aufgaben der Inhaltskonvertierung nützlich ist. Dieser Leitfaden ist Teil unseres Hubs Dokumentations-Tools 2026: Markdown, LaTeX, PDF & Druckworkflows.

Suche vs. Deep Search vs. Deep Research im Jahr 2026

Suche ist ideal für die schnelle und direkte Informationsbeschaffung mit Hilfe von Stichwörtern.
Deep Search überzeugt durch das Verständnis von Kontext und Absicht und liefert für komplexe Anfragen relevantere und umfassendere Ergebnisse.

Hier finden Sie einige KI-gestützte Codierungswerkzeuge und KI-Codierungsassistenten sowie deren positiven Aspekte.

Die Verwendung von LLMs ist nicht sehr teuer, es könnte kein Bedarf bestehen, neue, unglaublich leistungsstarke GPUs zu kaufen.
Hier ist eine Liste der LLM-Anbieter in der Cloud mit den LLMs, die sie hosten.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.

Vergleich der Eignung von NVidia-GPUs für KI

Inmitten der Turbulenzen der modernen Welt hier vergleiche ich die Tech-Spezifikationen verschiedener Grafikkarten für KI-Aufgaben
(Deep Learning,
Objekterkennung
und LLMs).
Sie sind jedoch alle unglaublich teuer.

Wie Ollama parallele Anfragen verarbeitet

Wenn der Ollama-Server zwei Anfragen gleichzeitig erhält, hängt sein Verhalten von seiner Konfiguration und den verfügbaren Systemressourcen ab.

Ollama-Enshittification – die frühen Anzeichen

Chat-Oberflächen für lokale Ollama-Instanzen

NVIDIA DGX Spark – ein neues kleines KI-Supercomputer-System

Modellkontextprotokoll (MCP) und Anmerkungen zur Implementierung eines MCP-Servers in Go

Dokumente mit Ollama und dem Qwen3 Reranker-Modell neu sortieren – in Go

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

Neuranking von Texten mit Ollama und Qwen3 Embedding-LLM – in Go

Qwen3-Embedding- und Reranker-Modelle auf Ollama: State-of-the-Art-Leistung

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

HTML-Inhalt in Markdown konvertieren mit LLM und Ollama

Suche vs. Deep Search vs. Deep Research im Jahr 2026

Vergleich von KI-Coding-Assistenten

Cloud-LLM-Anbieter

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Vergleich der Eignung von NVidia-GPUs für KI

Wie Ollama parallele Anfragen verarbeitet