RAG - Rost Glukhov | Strona osobista i blog techniczny

Wektory tekstowe dla RAG i wyszukiwania – Python, Ollama, API kompatybilne z OpenAI

Jeśli pracujesz nad generacją wspieraną odzyskiwaniem (RAG), ta sekcja wyjaśnia wektory tekstowe (embeddings) prostym językiem — czym są, jak pasują do wyszukiwania i odzyskiwania informacji, oraz jak wywołać dwa popularne lokalne rozwiązania z Pythonu przy użyciu Ollama lub kompatybilnego z OpenAI interfejsu HTTP (jakiego używają serwery oparte na llama.cpp).

Strategie podziału w porównaniu RAG: alternatywy,权衡 i przykłady

Chunking to najbardziej niedoceniany hiperparametr w Retrieval ‑ Augmented Generation (RAG): czynnie określa, co LLM “widzi”, jak drogie staje się przetwarzanie, i ile miejsca w oknie kontekstu LLM zużywa się na odpowiedź.

Poradnik RAG (Retrieval-Augmented Generation): architektura, implementacja i wdrożenie w środowisku produkcyjnym

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Wybór odpowiedniej bazy wektorowej może zadecydować o powodzeniu Twojej aplikacji RAG pod względem wydajności, kosztów i skalowalności. To kompleksowe porównanie obejmuje najpopularniejsze opcje w latach 2024-2025.

Zaawansowane reprezentacje przekrojowe: łączenie trybów AI

Przestrzenne reprezentacje przekrojowe stanowią przełom w sztucznej inteligencji, umożliwiając zrozumienie i rozumowanie na przekrój danych w jednolitej przestrzeni reprezentacji.

Zaawansowane RAG: Wyjaśnienie LongRAG, Self-RAG i GraphRAG

Generowanie Wspomagane Odtwarzaniem (RAG) ewoluowało znacznie poza proste wyszukiwanie wektorowe oparte na podobieństwie. LongRAG, Self-RAG oraz GraphRAG reprezentują wiodącą krawędź tych możliwości.

Reranking dokumentów przy użyciu Ollama i modelu Qwen3 Reranker – w języku Go

Ponieważ standardowe Ollama nie posiada bezpośredniego interfejsu API do ponownego rankingu (reranking), musisz zaimplementować ponowny ranking przy użyciu Qwen3 Reranker w GO, generując wektory (embeddings) dla par zapytanie-dokument i przypisując im oceny.

Ponowne rankowanie tekstów przy użyciu Ollama i Qwen3 Embedding LLM – w Go

Ten niewielki przykład kodu Go do rerankingu wywołuje Ollamę do generowania wektorów dla zapytania oraz dla każdego dokumentu kandydackiego, następnie sortuje wyniki malejąco według podobieństwa kosinusowego.

Modele Qwen3 Embedding i Reranker na Ollama: osiągnięcia stanowiące stan techniki

Modele Qwen3 Embedding i Reranker (https://www.glukhov.org/pl/rag/embeddings/ “Modele Qwen3 Embedding i Reranker na platformie ollama”) to najnowsze wydania z rodziny Qwen, zaprojektowane specjalnie do zaawansowanych zadań związanych z tworzeniem wektorów tekstu (embedding), odnajdywaniem informacji (retrieval) oraz ponownym ocenianiem wyników (reranking).

Wyszukiwanie vs. głębokie wyszukiwanie vs. głęboka analiza w 2026 roku

Wyszukiwanie (Search) jest najlepsze do szybkiego, prostego wyszukiwania informacji przy użyciu słów kluczowych.
Głębokie wyszukiwanie wyróżnia się rozumieniem kontekstu i intencji, dostarczając bardziej trafne i kompleksowe wyniki dla złożonych zapytań.

Reranking to drugi krok w systemach RAG (Retrieval Augmented Generation), znajdujący się bezpośrednio między pobieraniem (Retrieving) a generowaniem (Generating).