Cheatsheet

Usuń wszystkie modele routera llama.cpp bez restartowania

Usuń wszystkie modele routera llama.cpp bez restartowania

Darmowa pamięć VRAM bez zabijania llama-server.

Tryb routera w llama.cpp to jedna z najbardziej przydatnych zmian wprowadzonych do llama-server w ciągu ostatnich lat. Wreszcie daje lokalnym operatorom modeli LLM coś w rodzaju zarządzania modelami, do którego są przyzwyczajeni z Ollama, jednocześnie zachowując surową wydajność i kontrolę na niskim poziomie, która sprawia, że warto korzystać z llama.cpp w pierwszej kolejności.

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Gorące wymiana lokalnych modeli LLM bez konieczności zmiany klientów.

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

Uruchom własny serwer z API zgodnym z OpenAI przy użyciu LocalAI w kilka minut.

LocalAI to serwer inferencji typu self-hosted i first-local zaprojektowany tak, aby zachowywał się jak kompatybilny zamiennik API OpenAI do uruchamiania obciążeń AI na Twoim własnym sprzęcie (laptop, stacja robocza lub serwer lokalny).

Szybki start z llama.cpp: CLI i serwer

Szybki start z llama.cpp: CLI i serwer

Jak zainstalować, skonfigurować i korzystać z OpenCode

Nieustannie wracam do llama.cpp do wnioskowania lokalnego – daje ono kontrolę, której Ollama i inne rozwiązania abstrahują, a po prostu działa. Łatwo uruchamiać modele GGUF interaktywnie za pomocą llama-cli lub narażać API HTTP zgodne z OpenAI za pomocą llama-server.