RAG

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

Chunking-Strategien im RAG-Vergleich: Alternativen, Kompromisse und Beispiele

Chunking ist der wichtigste unterschätzte Hyperparameter in Retrieval ‑ Augmented Generation (RAG): Er bestimmt still und leise, was Ihr LLM “sieht”, wie teuer die Verarbeitung wird, und wie viel vom LLM-Kontextfenster pro Antwort verbraucht wird.

RAG-Tutorial: Architektur, Implementierung und Produktionsleitfaden

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Die Wahl der richtigen Vektordatenbank kann den Erfolg oder Misserfolg Ihrer RAG-Anwendung in Bezug auf Leistung, Kosten und Skalierbarkeit bestimmen. Dieser umfassende Vergleich deckt die beliebtesten Optionen für 2024–2025 ab.

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

Cross-modale Einbettungen stellen einen Durchbruch in der künstlichen Intelligenz dar und ermöglichen das Verständnis und die Schlussfolgerung über verschiedene Datentypen hinweg in einem einheitlichen Darstellungsraum.

Fortgeschrittenes RAG: Erklärung von LongRAG, Self-RAG und GraphRAG

Retrieval-Augmented Generation (RAG) hat sich weit über die einfache Vektorähnlichkeitssuche hinaus entwickelt. LongRAG, Self-RAG und GraphRAG repräsentieren den Stand der Technik dieser Fähigkeiten.

Dokumente mit Ollama und dem Qwen3 Reranker-Modell neu sortieren – in Go

Da der Standard-Ollama keine direkte Rerank-API bietet, müssen Sie das Reranking mit dem Qwen3 Reranker in GO implementieren, indem Sie Embeddings für Abfrage-Dokumenten-Paare generieren und diese bewerten.

Neuranking von Texten mit Ollama und Qwen3 Embedding-LLM – in Go

Dieses kleine Go-Code-Beispiel für das Neuranking ruft Ollama auf, um Embeddings zu generieren für die Abfrage und für jedes Kandidatendokument, sortiert dann absteigend nach der Kosinus-Ähnlichkeit.

Qwen3-Embedding- und Reranker-Modelle auf Ollama: State-of-the-Art-Leistung

Die Qwen3 Embedding- und Reranker-Modelle sind die neuesten Veröffentlichungen in der Qwen-Familie und wurden speziell für fortgeschrittene Text-Einbettungs-, Abruf- und Neuklassifizierungsaufgaben entwickelt.

Suche eignet sich am besten für die schnelle und direkte Informationsbeschaffung anhand von Stichwörtern.
Deep Search zeichnet sich durch das Verständnis von Kontext und Intent aus und liefert für komplexe Anfragen relevantere und umfassendere Ergebnisse.

Reranking ist ein zweiter Schritt in Retrieval-Augmented-Generation-Systemen (RAG) Systeme, genau zwischen dem Abrufen (Retrieval) und der Generierung.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Chunking-Strategien im RAG-Vergleich: Alternativen, Kompromisse und Beispiele

RAG-Tutorial: Architektur, Implementierung und Produktionsleitfaden

Vergleich von Vektordatenbanken für RAG

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

Fortgeschrittenes RAG: Erklärung von LongRAG, Self-RAG und GraphRAG

Dokumente mit Ollama und dem Qwen3 Reranker-Modell neu sortieren – in Go

Neuranking von Texten mit Ollama und Qwen3 Embedding-LLM – in Go

Qwen3-Embedding- und Reranker-Modelle auf Ollama: State-of-the-Art-Leistung

Suche vs. Deepsearch vs. Deep Research

Reranking mit Embedding-Modellen