Jakie są najpopularniejsze polecenia w Ollama?

Najpopularniejsze polecenia w Ollama to: ollama list, ollama pull, ollama rm oraz ollama run.

Gdzie mogę porównać Ollamę z innymi opcjami hostingu LLM?

Nasz przegląd hostingu modeli LLM porównuje Ollamę z vLLM, Docker Model Runner, LocalAI oraz dostawcami chmury, uwzględniając kompromisy między kosztami a infrastrukturą.

Gdzie Ollama mieści się wśród lokalnych i chmurowych opcji LLM?

Poradnik dotyczący hostowania LLM porównuje narzędzia lokalne, takie jak Ollama i vLLM, z dostawcami chmurowymi i wyjaśnia, kiedy wybrać każdą z tych opcji.

Jak uwolnić pamięć GPU po użyciu modelu Ollama?

Użyj polecenia ollama stop wraz z nazwą modelu, aby zatrzymać uruchomiony model, lub wyślij żądanie do API Ollama z ustawionym parametrem keep_alive na 0, aby natychmiastowo odładować model z VRAM.

Jak zainstalować Ollama na systemie Linux?

Odwiedź stronę ollama.com, aby pobrać instalator, lub w terminalu wykonaj polecenie curl https://ollama.ai/install.sh | sh i postępuj zgodnie z instrukcjami.

Jakie są wymagania systemowe do uruchomienia Ollama?

Wymagany jest system Mac lub Linux, co najmniej 8 GB pamięci RAM (zalecane 16 GB), około 10 GB wolnej przestrzeni dyskowej dla modeli oraz stosunkowo nowy procesor z ostatnich kilku lat.

Jak sprawdzić, które modele Ollama są obecnie załadowane lub uruchomione?

Uruchom polecenie ollama ps , aby wyświetlić listę obecnie załadowanych modeli, ich rozmiar, czy wykorzystują GPU czy CPU, oraz jak długo pozostają w pamięci.

Jak uruchomić model Ollama z pojedynczym promptem bez otwierania interakcyjnej sesji?

Przekieruj swoje zapytanie do polecenia ollama run . Na przykład polecenie printf "Twoje pytanie tutaj\n" | ollama run nazwa_modelu uruchamia model raz i następnie kończy działanie.

Jak zwiększyć lub ograniczyć równoległe żądania w Ollama?

Ustaw zmienną środowiskową OLLAMA_NUM_PARALLEL przed uruchomieniem serwera (np. OLLAMA_NUM_PARALLEL=2 ollama serve), aby kontrolować liczbę zapytań, które Ollama obsługuje jednocześnie.

Jak dostosować model Ollama lub ustawić prompt systemowy?

Użyj polecenia /set system w interaktywnym REPL, a następnie /save, aby utworzyć nowy model, lub stwórz plik Modelfile z liniami FROM i SYSTEM oraz uruchom ollama create, aby zbudować niestandardowy model.

Skrót komend Ollama CLI: ls, serve, run, ps i inne (aktualizacja 2026)

Zaktualizowana lista poleceń Ollama – ls, ps, run, serve i inne

Page content

Ten ściągawka CLI Ollama skupia się na poleceniach, których używasz na co dzień (ollama ls, ollama serve, ollama run, ollama ps, zarządzanie modelami i typowe przepływy pracy), wraz z przykładami do kopiowania i wklejenia.

Zawiera również krótką sekcję „regulacji wydajności", która pomoże Ci odkryć (a następnie dogłębnie przeanalizować) OLLAMA_NUM_PARALLEL i powiązane ustawienia.

ollama cheatsheet

Ta ściągawka Ollama koncentruje się na poleceniach CLI, zarządzaniu modelami i dostosowywaniu, ale mamy tu również kilka wywołań curl.

Aby uzyskać pełny obraz tego, gdzie Ollama mieści się wśród opcji lokalnych, self-hosted i chmurowych — w tym vLLM, Docker Model Runner, LocalAI i dostawców chmury — zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej. Jeśli porównujesz różne rozwiązania do hostingu lokalnych LLM, sprawdź naszą wszechstronną porównawczą analizę Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla osób szukających alternatyw dla interfejsów wiersza polecenia, Docker Model Runner oferuje inne podejście do wdrażania LLM.

Instalacja Ollama (pobieranie i instalacja CLI)

Opcja 1: Pobieranie ze strony internetowej
- Odwiedź ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
Opcja 2: Instalacja przez wiersz polecenia
- Dla użytkowników Mac i Linux użyj polecenia:

curl -fsSL https://ollama.com/install.sh | sh

Postępuj zgodnie z instrukcjami na ekranie i podaj hasło, jeśli zostaniesz o to poproszony.

Wymagania systemowe Ollama (RAM, pamięć, procesor)

System operacyjny: Mac, Linux lub Windows
Pamięć (RAM): minimum 8 GB, zalecane 16 GB lub więcej
Pamięć: co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być bardzo duże, zobacz więcej tutaj Przeniesienie modeli Ollama na inny dysk )
Procesor: stosunkowo nowoczesny CPU (z ostatnich 5 lat). Jeśli jesteś ciekawy, jak Ollama wykorzystuje różne architekturey CPU, zobacz naszą analizę jak Ollama wykorzystuje rdzenie wydajnościowe i efektywne procesorów Intel.

W przypadku poważnych obciążeń AI możesz chcieć porównać opcje sprzętowe. Przeprowadziliśmy testy wydajności NVIDIA DGX Spark vs Mac Studio vs RTX-4080 z Ollama, a jeśli rozważasz inwestycję w sprzęt wysokiej klasy, nasza porównawcza analiza cen i możliwości DGX Spark dostarcza szczegółowej analizy kosztów.

Podstawowe polecenia CLI Ollama

Polecenie	Opis
`ollama serve`	Uruchamia serwer Ollama (domyślny port 11434).
`ollama run <model>`	Uruchamia określony model w interaktywnym trybie REPL.
`ollama pull <model>`	Pobiera określony model do Twojego systemu.
`ollama push <model>`	Wysyła model do rejestru Ollama.
`ollama list`	Wyświetla listę wszystkich pobranych modeli. To samo co `ollama ls`.
`ollama ps`	Pokazuje obecnie uruchomione (załadowane) modele.
`ollama stop <model>`	Zatrzymuje (odładowuje) uruchomiony model.
`ollama rm <model>`	Usuwa model z Twojego systemu.
`ollama cp <źródło> <cel>`	Kopiuje model pod nową nazwą lokalnie.
`ollama show <model>`	Wyświetla szczegóły modelu (architektura, parametry, szablon itp.).
`ollama create <model>`	Tworzy nowy model na podstawie pliku Modelfile.
`ollama launch [integracja]`	Konfiguracja zerowa uruchomienia asystentów kodowania AI (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Autoryzacja w rejestrze Ollama (umożliwia korzystanie z prywatnych modeli i modeli chmurowych).
`ollama signout`	Wylogowanie z rejestru Ollama.
`ollama help`	Dostarcza pomocy dotyczące dowolnego polecenia.

Skrócone linki: Polecenie Ollama serve · Polecenie Ollama launch · Polecenie Ollama run · Flagi polecenia Ollama run · Polecenie Ollama ps · Polecenie Ollama show · Ollama signin · Podstawy CLI Ollama · Regulacje wydajności (OLLAMA_NUM_PARALLEL) · Głęboka analiza żądań równoległych

CLI Ollama (co to jest)

CLI Ollama to interfejs wiersza polecenia do zarządzania modelami i ich uruchamiania/obsługi lokalnie. Większość przepływów pracy sprowadza się do:

Uruchomienie serwera: ollama serve
Uruchomienie modelu: ollama run <model>
Sprawdzenie, co jest załadowane/uruchomione: ollama ps
Zarządzanie modelami: ollama pull, ollama list, ollama rm

Zarządzanie modelami Ollama: polecenia pull i list

Lista modeli:

ollama list

to samo co:

ollama ls

To polecenie wyświetla wszystkie modele pobrane do Twojego systemu wraz z ich rozmiarami plików na dysku HDD/SSD, np.:

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

Pobieranie modelu: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

To polecenie pobiera określony model (np. Gemma 2B lub mistral-nemo:12b-instruct-2407-q6_K) do Twojego systemu. Pliki modelu mogą być bardzo duże, więc śledź miejsce zajęte przez modele na dysku twardym lub SSD. Możesz nawet chcieć przenieść wszystkie modele Ollama z katalogu domowego na większy i lepszy dysk

Wysyłanie modelu: ollama push

ollama push my-custom-model

Wysyła lokalny model do rejestru Ollama, aby inni mogli go pobrać. Najpierw musisz się zalogować (ollama signin), a nazwa modelu musi mieć prefix Twojej nazwy użytkownika Ollama, np. myuser/my-model. Użyj --insecure, jeśli wysyłasz do prywatnego rejestru przez HTTP:

ollama push myuser/my-model --insecure

Kopiowanie modelu: ollama cp

ollama cp llama3.2 my-llama3-variant

Tworzy lokalną kopię modelu pod nową nazwą bez ponownego pobierania niczego. To przydatne przed edycją pliku Modelfile — najpierw skopiuj, dostosuj kopię i zachowaj oryginał nienaruszony:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Polecenie Ollama show

ollama show drukuje informacje o pobranym modelu.

ollama show qwen3:14b

Domyślnie drukuje kartę modelu (architektura, długość kontekstu, długość osadzania, kwantyzacja itp.). Istnieją trzy przydatne flagi:

Flag	Co pokazuje
`--modelfile`	Pełny plik Modelfile użyty do stworzenia modelu (linie FROM, SYSTEM, TEMPLATE, PARAMETER)
`--parameters`	Tylko blok parametrów (np. `num_ctx`, `temperature`, tokeny `stop`)
`--verbose`	Rozszerzone metadane, w tym kształty tensorów i liczniki warstw

# Zobacz dokładnie, z jakim systemowym promptem i szablonem został zbudowany model
ollama show deepseek-r1:8b --modelfile

# Sprawdź wielkość okna kontekstowego i inne parametry wnioskowania
ollama show qwen3:14b --parameters

# Pełne szczegóły na poziomie tensorów (przydatne przy debugowaniu kwantyzacji)
ollama show llama3.2 --verbose

Wyjście --modelfile jest szczególnie przydatne przed dostosowaniem modelu: możesz skopiować podstawowy plik Modelfile i edytować go zamiast pisać od zera.

Polecenie Ollama serve

ollama serve uruchamia lokalny serwer Ollama (domyślny port HTTP 11434).

ollama serve

Polecenie “ollama serve” (przyjazny dla systemd przykład):

# ustaw zmienne środowiskowe, a następnie uruchom serwer
# udostępnij ollama na adresie IP hosta
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Polecenie Ollama run

Uruchomienie modelu:

ollama run gpt-oss:20b

To polecenie uruchamia określony model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej o tym, jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.

ollama run uruchamia model w sesji interaktywnej, więc w przypadku gpt-oss:120b zobaczysz coś w stylu:

$ ollama run gpt-oss:120b
>>> Wyślij wiadomość (/? dla pomocy)

możesz wpisać swoje pytania lub polecenia, a model odpowie.

>>> kim jesteś?
Thinking...
Użytkownik pyta "kim jesteś?" Proste pytanie. Należy odpowiedzieć jako ChatGPT, model językowy AI, wytrenowany przez OpenAI, 
itd. Dostarcz krótkie wprowadzenie. Prawdopodobnie zapytaj, czy potrzebują pomocy.
...done thinking.

Jestem ChatGPT, modelem językowym AI stworzonym przez OpenAI. zostałem przeszkolony na szerokim zakresie tekstów, więc mogę pomóc 
odpowiadać na pytania, wymyślać pomysły, wyjaśniać koncepcje, tworzyć szkice pisma, rozwiązywać problemy i wiele więcej. Traktuj 
mnie jako wszechstronnego wirtualnego asystenta — tu, aby dostarczać informacje, wsparcie i rozmowy, kiedykolwiek ich potrzebujesz. Jak mogę Ci dzisiaj pomóc?

>>> Wyślij wiadomość (/? dla pomocy)

Aby wyjść z interaktywnej sesji ollama, naciśnij Ctrl+D lub wpisz /bye, efekt będzie taki sam:

>>> /bye
$

Przykłady polecenia Ollama run

Aby uruchomić model i zadać pojedyncze pytanie w nieinteraktywnym trybie:

printf "Daj mi 10 jednostronicowych poleceń bash do analizy logów.\n" | ollama run llama3.2

Jeśli chcesz zobaczyć szczegółową, wyczerpującą odpowiedź LLM w sesji ollama - uruchom model z parametrem --verbose lub -v:

$ ollama run gpt-oss:20b --verbose
>>> kim jesteś?
Thinking...
Musimy odpowiedzieć na proste pytanie: "kim jesteś?" Użytkownik pyta "kim jesteś?" Możemy odpowiedzieć, że 
jesteśmy ChatGPT, dużym modelem językowym przeszkolonym przez OpenAI. Możemy również wspomnieć o możliwościach. Użytkownik prawdopodobnie oczekuje 
krótkiego wprowadzenia. Zachowamy przyjazny ton.
...done thinking.

Jestem ChatGPT, dużym modelem językowym stworzonym przez OpenAI. Jestem tutaj, aby pomóc odpowiadać na pytania, oferować wyjaśnienia, 
wymyślać pomysły i rozmawiać o szerokiej gamie tematów — od nauki i historii po kreatywne pisanie 
i codzienne porady. Daj mi znać, o czym chciałbyś porozmawiać!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$

Tak, to prawda, to jest 139 tokenów na sekundę. Model gpt-oss:20b jest bardzo szybki. Jeśli Ty, tak jak ja, masz GPU z 16 GB VRAM - zobacz szczegóły porównania prędkości LLM w Najlepsze LLM dla Ollama na GPU 16GB VRAM.

Wskazówka: Jeśli chcesz, aby model był dostępny przez HTTP dla wielu aplikacji, uruchom serwer z ollama serve i użyj klienta API zamiast długich sesji interaktywnych.

Flagi polecenia Ollama run (pełne odniesienie)

Flag	Opis
`--verbose` / `-v`	Wydrukuj statystyki czasowe (tokeny/s, czas ładowania itp.) po każdej odpowiedzi
`-p, --parameters`	Przekazuj parametry modelu w linii bez pliku Modelfile (zobacz poniżej)
`--format string`	Wymuś konkretny format wyjścia, np. `json`
`--nowordwrap`	Wyłącz automatowe zawijanie słów — przydatne przy przekierowywaniu wyjścia do skryptów
`--insecure`	Pozwól na połączenie z rejestrą przez HTTP (dla prywatnych/self-hosted rejestrów)

Nadszywanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Flaga -p pozwala zmieniać parametry wnioskowania w czasie wykonywania bez tworzenia pliku Modelfile. Możesz stosować wiele flag -p:

# Zwiększ okno kontekstowe i obniż temperaturę
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Uruchom zadanie kodowania z deterministycznym wyjściem
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Częste parametry, które można ustawić w ten sposób:

Parametr	Efekt
`num_ctx`	Rozmiar okna kontekstowego w tokenach (domyślnie zależy od modelu, często 2048–4096)
`temperature`	Losowość: 0 = deterministyczny, 1 = kreatywny
`top_p`	Próg próbkowania jądra
`top_k`	Ogranicza słownictwo do najlepszych K tokenów
`num_predict`	Maksymalna liczba generowanych tokenów (-1 = nieograniczona)
`repeat_penalty`	Kary za powtarzanie tokenów

Wprowadzanie wielolinijkowe w REPL

Otocz tekst potrójnymi cudzysłowami ("""), aby wprowadzić wielolinijkowy prompt bez wczesnego wysyłania:

>>> """Podsumuj to w jednym zdaniu:
... Szybki brązowy lis przeskakuje przez leniwego psa.
... Stało się to we wtorek.
... """

Modele multimodalne (obrazy)

Dla modeli zdolnych do widzenia (np. gemma3, llava), przekazy ścieżkę do obrazu bezpośrednio w prompcie:

ollama run gemma3 "Co jest na tym obrazie? /home/user/screenshot.png"

Generowanie osadzeń (embeddings) przez CLI

Modele osadzania zwracają tablicę JSON zamiast tekstu. Przekieruj tekst bezpośrednio dla szybkich, jednorazowych osadzeń:

echo "Hello world" | ollama run nomic-embed-text

Dla obciążeń produkcyjnych dotyczących osadzeń użyj punktu końcowego REST /api/embeddings lub klienta Python.

Wymuszanie wyjścia JSON (–format)

ollama run llama3.2 --format json "Wypisz 5 stolic jako JSON"

Model jest instruowany do zwrócenia poprawnego JSON. Przydatne przy przekierowywaniu wyjścia do jq lub skryptu oczekującego strukturalnych danych.

Polecenie Ollama stop

To polecenie zatrzymuje określony uruchomiony model.

ollama stop llama3.1:8b-instruct-q8_0

Ollama wyrzuca modele automagicznie po pewnym czasie. Możesz określić ten czas, domyślnie jest to 4 minuty. Jeśli nie chcesz czekać do upływu pozostałego czasu, możesz chcieć użyć tego polecenia ollama stop. Możesz również wyrzucić model z VRAM, wywołując punkt końcowy API /generate z parametrem keep_alive=0, zobacz poniżej opis i przykład.

Polecenie Ollama ps

ollama ps pokazuje obecnie uruchomione modele i sesje (przydatne do debugowania „dlaczego moja VRAM jest pełna?").

ollama ps

Przykład wyjścia ollama ps jest poniżej:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

Widzisz tutaj na moim PC, że gpt-oss:20b mieści się bardzo dobrze w 16 GB VRAM mojego GPU, i zajmuje tylko 14 GB.

Jeśli wykonam ollama run gpt-oss:120b, a następnie wywołam ollama ps, wynik nie będzie tak jasny: 78% warstw jest na CPU, i to tylko z oknem kontekstowym 4096 tokenów. Będzie więcej, jeśli będę potrzebował zwiększyć kontekst.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Polecenie Ollama launch (integracje AI do kodowania)

ollama launch to polecenie wprowadzone w Ollama v0.15 (styczeń 2026), które zapewnia konfigurację zerową, jednostronicową instalację dla popularnych asystentów kodowania AI działających przeciwko Twojemu lokalnemu serwerowi Ollama.

Dlaczego używać ollama launch?

Przed ollama launch, podpięcie agenta kodowania, takiego jak Claude Code lub Codex, do lokalnego backendu Ollama oznaczało ręczne ustawianie zmiennych środowiskowych, wskazywanie narzędzia do odpowiedniego punktu końcowego API i wybieranie kompatybilnego modelu. ollama launch zajmuje się tym wszystkim dla Ciebie interaktywnie.

Jeśli już uruchamiasz Ollama lokalnie i chcesz asystenta kodowania agentowego bez płacenia za wywołania API lub wysyłania kodu do chmury, ollama launch jest najszybszą ścieżką.

Wspierane integracje

Integracja	Co to jest
`claude`	Asystent kodowania Claude Code firmy Anthropic
`codex`	Asystent kodowania Codex firmy OpenAI
`droid`	Asystent kodowania AI firmy Factory
`opencode`	Asystent kodowania open-source

Podstawowe użycie

# Interaktywny wybór — wybierz integrację z menu
ollama launch

# Uruchom konkretną integrację bezpośrednio
ollama launch claude

# Uruchom z konkretnym modelem
ollama launch claude --model qwen3-coder

# Skonfiguruj integrację bez uruchamiania (przydatne do inspekcji ustawień)
ollama launch droid --config

Polecane modele

Agenci kodowania potrzebują długiego okna kontekstowego, aby przechowywać kontekst całego pliku i historię rozmów wieloturnowych. Ollama zaleca modele z co najmniej 64 000 tokenami kontekstu:

Model	Uwagi
`qwen3-coder`	Silna wydajność kodowania, długi kontekst, działa lokalnie
`glm-4.7-flash`	Szybka opcja lokalna
`devstral:24b`	Model skupiony na kodowaniu od Mistral

Jeśli Twoje GPU nie mieści modelu, Ollama oferuje również warianty hostowane w chmurze (np. qwen3-coder:480b-cloud), które integrują się w ten sam sposób, ale kierują wnioskowanie do warstwy chmurowej Ollama — wymagając ollama signin.

Przykład: uruchamianie Claude Code lokalnie z Ollama

# 1. Upewnij się, że model jest dostępny
ollama pull qwen3-coder

# 2. Uruchom Claude Code przeciwko niemu
ollama launch claude --model qwen3-coder

Ollama ustawia niezbędne zmienne środowiskowe i uruchamia Claude Code wskazując na http://localhost:11434 automatycznie. Możesz następnie używać Claude Code dokładnie tak, jak normalnie — jedyną różnicą jest to, że wnioskowanie dzieje się na Twoim własnym sprzęcie.

Regulacje wydajności (`OLLAMA_NUM_PARALLEL`)

Jeśli widzisz kolejkowanie lub przekroczenia czasu oczekiwania pod obciążeniem, pierwszą regulacją do nauki jest OLLAMA_NUM_PARALLEL.

OLLAMA_NUM_PARALLEL = ile żądań Ollama wykonuje równolegle.
Wyższa wartość może zwiększyć przepustowość, ale może zwiększyć presję na VRAM i skoki opóźnień.

Szybki przykład:

OLLAMA_NUM_PARALLEL=2 ollama serve

Dla pełnego wyjaśnienia (w tym strategii strojenia i trybów awarii), zobacz:

Jak Ollama obsługuje żądania równoległe

Zwalnianie modelu Ollama z VRAM (keep_alive)

Kiedy model jest załadowany do VRAM (pamięć GPU), pozostaje tam nawet po zakończeniu jego używania. Aby jawnie zwolnić model z VRAM i uwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.

Zwolnij model z VRAM używając curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Zastąp MODELNAME swoją rzeczywistą nazwą modelu, na przykład:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Zwolnij model z VRAM używając Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

To jest szczególnie przydatne, gdy:

Potrzebujesz uwolnić pamięć GPU dla innych aplikacji
Uruchamiasz wiele modeli i chcesz zarządzać użytkowaniem VRAM
Zakończyłeś używanie dużego modelu i chcesz natychmiast zwolnić zasoby

Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany w pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiast odładowuje model z VRAM.

Jeśli wolisz całkowicie unikać warstwy abstrakcji Ollama i chcesz bezpośredniej kontroli nad tym, który model GGUF jest rezydentny w dowolnym momencie, tryb routera llama-server obejmuje podejście native dla llama.cpp do dynamicznego przełączania modeli.

Dostosowywanie modeli Ollama (system prompt, Modelfile)

Ustaw System Prompt: Wewnątrz REPL Ollama możesz ustawić system prompt, aby dostosować zachowanie modelu:
```
>>> /set system Dla wszystkich pytań odpowiadaj w prostym języku angielskim, unikając żargonu technicznego tak bardzo, jak to możliwe
>>> /save ipe
>>> /bye
```
Następnie uruchom dostosowany model:
```
ollama run ipe
```
To ustawia system prompt i zapisuje model do przyszłego użycia.
Stwórz plik niestandardowego modelu: Stwórz plik tekstowy (np. custom_model.txt) z następującą strukturą:
```
FROM llama3.1
SYSTEM [Twoje niestandardowe instrukcje tutaj]
```
Następnie uruchom:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
To tworzy dostosowany model na podstawie instrukcji w pliku".

ollama signin
ollama signout

ollama signin autentyfikuje Twoją lokalną instalację Ollama z rejestrą Ollama na ollama.com. Po zalogowaniu klient przechowuje poświadczenia lokalnie i automatycznie je ponownie używa dla kolejnych poleceń.

Cosignin odblokowuje:

Pobieranie i wysyłanie prywatnych modeli z Twojego konta lub organizacji.
Używanie modeli hostowanych w chmurze (np. qwen3-coder:480b-cloud), które są zbyt duże, aby działać lokalnie.
Publikowanie modeli do rejestru z ollama push.

Alternatywa: autoryzacja kluczem API

Jeśli uruchamiasz Ollama w potoku CI lub na serwerze bezheadless, gdzie interaktywne ollama signin nie jest praktyczne, stwórz klucz API w ustawieniach konta Ollama i wystaw go jako zmienną środowiskową:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Zmienna OLLAMA_API_KEY jest automatycznie podchwycona przez każde polecenie Ollama i żądanie API — nie ma potrzeby uruchamiania ollama signin na każdej maszynie.

Używanie polecenia Ollama run z plikami (podsumowanie, przekierowanie)

Podsumowanie tekstu z pliku:
```
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txt
```
To polecenie podsumowuje zawartość pliku input.txt używając określonego modelu.
Zapisywanie odpowiedzi modelu do pliku:
```
ollama run llama3.2 "Powiedz mi o energii odnawialnej." > output.txt
```
To polecenie zapisuje odpowiedź modelu do pliku output.txt.

Przypadki użycia CLI Ollama (generowanie tekstu, analiza)

Generowanie tekstu:

Podsumowanie dużego pliku tekstowego:

ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt

Generowanie treści:

ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w opiece zdrowotnej." > article.txt

Odpowiadanie na konkretne pytania:

ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną na opiekę zdrowotną?"

Przetwarzanie i analiza danych:
- Klasyfikacja tekstu jako pozytywny, negatywny lub neutralny sentyment:
```
ollama run llama3.2 "Przeanalizuj sentyment tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była powolna.'"
```
- Kategoryzacja tekstu do zdefiniowanych wcześniej kategorii: Użyj podobnych poleceń do klasyfikacji lub kategoryzacji tekstu na podstawie zdefiniowanych kryteriów.

Używanie Ollama z Pythonem (klient i API)

Instalacja biblioteki Python Ollama:
```
pip install ollama
```

Generowanie tekstu używając Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='co to jest qubit?')
print(response['response'])

Ten fragment kodu generuje tekst używając określonego modelu i promptu.

Dla zaawansowanej integracji Python, odkryj używanie API wyszukiwania webowego Ollama w Python, które obejmuje możliwości wyszukiwania webowego, wywoływania narzędzi i integrację z serwerami MCP. Jeśli budujesz aplikacje zasilane AI, nasze porównanie asystentów kodowania AI może pomóc Ci wybrać odpowiednie narzędzia do rozwoju.

Szukasz interfejsu opartego na sieci? Open WebUI dostarcza self-hosted interfejs z możliwościami RAG i obsługą wielu użytkowników. Dla wdrożeń produkcyjnych o wysokiej wydajności, rozważ vLLM jako alternatywę. Aby porównać Ollama z innymi lokalnymi i chmurowymi wyborami infrastruktury LLM, zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej.

Skrót komend Ollama CLI: ls, serve, run, ps i inne (aktualizacja 2026)

Instalacja Ollama (pobieranie i instalacja CLI)

Wymagania systemowe Ollama (RAM, pamięć, procesor)

Podstawowe polecenia CLI Ollama

CLI Ollama (co to jest)

Zarządzanie modelami Ollama: polecenia pull i list

Polecenie Ollama show

Polecenie Ollama serve

Polecenie Ollama run

Przykłady polecenia Ollama run

Flagi polecenia Ollama run (pełne odniesienie)

Nadszywanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Wprowadzanie wielolinijkowe w REPL

Modele multimodalne (obrazy)

Generowanie osadzeń (embeddings) przez CLI

Wymuszanie wyjścia JSON (–format)

Polecenie Ollama stop

Polecenie Ollama ps

Polecenie Ollama launch (integracje AI do kodowania)

Dlaczego używać ollama launch?

Wspierane integracje

Podstawowe użycie

Polecane modele

Przykład: uruchamianie Claude Code lokalnie z Ollama

Regulacje wydajności (`OLLAMA_NUM_PARALLEL`)

Zwalnianie modelu Ollama z VRAM (keep_alive)

Dostosowywanie modeli Ollama (system prompt, Modelfile)

Używanie polecenia Ollama run z plikami (podsumowanie, przekierowanie)

Przypadki użycia CLI Ollama (generowanie tekstu, analiza)

Używanie Ollama z Pythonem (klient i API)

Przydatne linki

Konfiguracja i zarządzanie

Alternatywy i porównania

Wydajność i sprzęt

Integracja i rozwój

Instalacja Ollama (pobieranie i instalacja CLI)

Wymagania systemowe Ollama (RAM, pamięć, procesor)

Podstawowe polecenia CLI Ollama

CLI Ollama (co to jest)

Zarządzanie modelami Ollama: polecenia pull i list

Polecenie Ollama show

Polecenie Ollama serve

Polecenie Ollama run

Przykłady polecenia Ollama run

Flagi polecenia Ollama run (pełne odniesienie)

Nadszywanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Wprowadzanie wielolinijkowe w REPL

Modele multimodalne (obrazy)

Generowanie osadzeń (embeddings) przez CLI

Wymuszanie wyjścia JSON (–format)

Polecenie Ollama stop

Polecenie Ollama ps

Polecenie Ollama launch (integracje AI do kodowania)

Dlaczego używać ollama launch?

Wspierane integracje

Podstawowe użycie

Polecane modele

Przykład: uruchamianie Claude Code lokalnie z Ollama

Regulacje wydajności (OLLAMA_NUM_PARALLEL)

Zwalnianie modelu Ollama z VRAM (keep_alive)

Dostosowywanie modeli Ollama (system prompt, Modelfile)

Ollama signin i signout (autoryzacja rejestru)

Używanie polecenia Ollama run z plikami (podsumowanie, przekierowanie)

Przypadki użycia CLI Ollama (generowanie tekstu, analiza)

Używanie Ollama z Pythonem (klient i API)

Przydatne linki

Konfiguracja i zarządzanie

Alternatywy i porównania

Wydajność i sprzęt

Integracja i rozwój

Subskrybuj

Regulacje wydajności (`OLLAMA_NUM_PARALLEL`)