LLM

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Serwer Ollama z pierwszeństwem kompozycji, obsługą GPU i trwałością danych.

Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.

Wektory tekstowe dla RAG i wyszukiwania – Python, Ollama, API kompatybilne z OpenAI

Wektory tekstowe dla RAG i wyszukiwania – Python, Ollama, API kompatybilne z OpenAI

RAG embeddings – Python, Ollama, API OpenAI.

Jeśli pracujesz nad generacją wspieraną odzyskiwaniem (RAG), ta sekcja wyjaśnia wektory tekstowe (embeddings) prostym językiem — czym są, jak pasują do wyszukiwania i odzyskiwania informacji, oraz jak wywołać dwa popularne lokalne rozwiązania z Pythonu przy użyciu Ollama lub kompatybilnego z OpenAI interfejsu HTTP (jakiego używają serwery oparte na llama.cpp).

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Gorące wymiana lokalnych modeli LLM bez konieczności zmiany klientów.

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

Uruchom własny serwer z API zgodnym z OpenAI przy użyciu LocalAI w kilka minut.

LocalAI to serwer inferencji typu self-hosted i first-local zaprojektowany tak, aby zachowywał się jak kompatybilny zamiennik API OpenAI do uruchamiania obciążeń AI na Twoim własnym sprzęcie (laptop, stacja robocza lub serwer lokalny).

Szybki start z llama.cpp: CLI i serwer

Szybki start z llama.cpp: CLI i serwer

Jak zainstalować, skonfigurować i użyć OpenCode

Często powracam do llama.cpp do lokalnej inferencji – daje to kontrolę, którą Ollama i inne rozwiązania abstrahują, a po prostu to działa. Łatwo uruchamiać modele GGUF interaktywnie przy użyciu llama-cli lub wystawić kompatybilne z OpenAI HTTP API za pomocą llama-server.