Jakie są najpopularniejsze polecenia w Ollama?

Najpopularniejsze polecenia w Ollama to ollama list, ollama pull, ollama rm i ollama run.

Gdzie mogę porównać Ollama z innymi opcjami hostingu modeli LLM?

Nasz przegląd hostingu LLM porównuje Ollama z vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi, w tym kosztami i kompromisami w zakresie infrastruktury.

Jak mogę zobaczyć, gdzie Ollama mieści się wśród lokalnych i chmurowych opcji LLM?

Przewodnik po hostowaniu LLM porównuje lokalne narzędzia takie jak Ollama i vLLM z dostawcami chmurowymi i wyjaśnia, kiedy warto wybrać każde z nich.

Jak zwolnić pamięć GPU po użyciu modelu Ollama?

Użyj polecenia ollama stop wraz z nazwą modelu, aby zatrzymać działający model, lub wysyłaj żądanie do API Ollama z ustawieniem keep_alive na 0, aby natychmiast wypchnąć model z VRAM.

Jak zainstalować Ollama na Linuxie?

Aby pobrać instalator, odwiedź stronę ollama.com lub uruchom w terminalu polecenie curl https://ollama.ai/install.sh | sh i postępuj zgodnie z instrukcjami.

Jakie są wymagania systemowe do uruchomienia Ollama?

Potrzebujesz komputera z systemem Mac lub Linux, co najmniej 8 GB RAM (zalecane 16 GB), około 10 GB wolnego miejsca na przechowywanie modeli oraz stosunkowo nowy procesor z ostatnich kilku lat.

Jak mogę zobaczyć, które modele Ollama są obecnie załadowane lub uruchomione?

Uruchom ollama ps , aby wyświetlić obecnie załadowane modele, ich rozmiar, czy korzystają one z GPU czy CPU oraz jak długo pozostają w pamięci.

Jak uruchomić model Ollama z pojedynczym promptem bez otwierania interaktywnej sesji?

Przekieruj swój prompt do ollama run, na przykład: printf “Twoje pytanie tutaj\n” | ollama run modelname uruchamia model raz i zamyka się.

Jak mogę zwiększyć lub ograniczyć liczba równoległych żądań w Ollama?

Ustaw zmienną środowiskową OLLAMA_NUM_PARALLEL przed uruchomieniem serwera (np. OLLAMA_NUM_PARALLEL=2 ollama serve), aby kontrolować, ile żądań Ollama przetwarza jednocześnie.

Jak mogę dostosować model Ollama lub ustawić systemowy monit?

Użyj /set system w interaktywnym REPL, a następnie /save, aby utworzyć nowy model, lub utwórz plik Modelfile z liniami FROM i SYSTEM i uruchom polecenie ollama create, aby wygenerować niestandardowy model.

Karta cheat Ollama CLI: ls, serve, run, ps + polecenia (aktualizacja 2026)

Zaktualizowana lista poleceń Ollama - ls, ps, run, serve, itp.

Page content

Ten cheatsheet CLI Ollama skupia się na poleceniach, które używasz każdego dnia (ollama ls, ollama serve, ollama run, ollama ps, zarządzanie modelami i typowe przepływy pracy), z przykładami, które możesz skopiować i wkleić.

Zawiera także krótki „sekcję węzłów wydajności”, aby pomóc Ci odkryć (a następnie zrozumieć głębiej) OLLAMA_NUM_PARALLEL i powiązane ustawienia.

cheatsheet Ollama

Ten cheatsheet Ollama skupia się na poleceniach CLI, zarządzaniu modelami i dostosowaniu, Ale tutaj również znajdziesz niektóre curl wywołania.

Aby uzyskać pełny obraz, gdzie Ollama mieści się wśród lokalnych, samowystarczalnych i chmurowych opcji — w tym vLLM, Docker Model Runner, LocalAI i dostawców chmurowych — zobacz Hosting LLM: Lokalne, Samowystarczalne & Porównanie Infrastruktury Chmurowej. Jeśli porównujesz różne lokalne rozwiązania hostingu LLM, sprawdź nasze kompletne porównanie Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla tych, którzy szukają alternatyw dla interfejsów CLI, Docker Model Runner oferuje inny sposób wdrażania LLM.

Instalacja Ollama (pobieranie i instalacja CLI)

Opcja 1: Pobierz z witryny internetowej
- Odwiedź stronę ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
Opcja 2: Zainstaluj przez wiersz poleceń
- Dla użytkowników Mac i Linux:

curl -fsSL https://ollama.com/install.sh | sh

Postępuj zgodnie z instrukcjami na ekranie i wpisz swoje hasło, jeśli zostanie poproszony.

Wymagania systemowe Ollama (RAM, przechowywanie, CPU)

System operacyjny: Mac, Linux lub Windows
Pamięć (RAM): Minimum 8 GB, zalecane 16 GB lub więcej
Przechowywanie: Co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być naprawdę duże, zobacz tutaj więcej Przeniesienie modeli Ollama na inny dysk )
Procesor: Relatywnie nowy procesor (z ostatnich 5 lat). Jeśli jesteś ciekaw, jak Ollama wykorzystuje różne architektury procesorów, zobacz nasze analizy jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel.

Dla poważnych obciążeń AI możesz chcieć porównać opcje sprzętu. Przetestowaliśmy NVIDIA DGX Spark vs Mac Studio vs RTX-4080 wydajność z Ollama, a jeśli rozważasz inwestycję w wysokiej klasy sprzęty, nasze ceny i porównanie możliwości DGX Spark oferuje szczegółową analizę kosztów.

Podstawowe polecenia CLI Ollama

Polecenie	Opis
`ollama serve`	Uruchamia serwer Ollama (domyślny port 11434).
`ollama run <model>`	Uruchamia wskazany model w interaktywnym REPL.
`ollama pull <model>`	Pobiera wskazany model na Twój system.
`ollama push <model>`	Przesyła model do rejestru Ollama.
`ollama list`	Wyświetla wszystkie pobrane modele. To samo co `ollama ls`.
`ollama ps`	Pokazuje obecnie uruchomione (załadowane) modele.
`ollama stop <model>`	Zatrzymuje (odzyskuje) uruchomiony model.
`ollama rm <model>`	Usuwa model z Twojego systemu.
`ollama cp <source> <dest>`	Kopiuje model pod nową nazwą lokalnie.
`ollama show <model>`	Wyświetla szczegóły dotyczące modelu (architektura, parametry, szablon itp.).
`ollama create <model>`	Tworzy nowy model z pliku Modelfile.
`ollama launch [integration]`	Zero-konfiguracyjne uruchomienie asystentów kodowania AI (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Uwierzytelnia się w rejestrze Ollama (włącza prywatne modele i modele w chmurze).
`ollama signout`	Wylogowuje się z rejestru Ollama.
`ollama help`	Udostępnia pomoc dotyczącą każdego polecenia.

Skoki do sekcji: polecenie ollama serve · polecenie ollama launch (integracje AI kodowania) · polecenie ollama run · flagi polecenia ollama run · polecenie ollama ps · polecenie ollama show · ollama signin · podstawowe polecenia CLI Ollama · węzły wydajności (OLLAMA_NUM_PARALLEL) · głębokie zanurzenie w żądaniach równoległych

CLI Ollama (co to jest)

CLI Ollama to interfejs wiersza poleceń do zarządzania modelami i uruchamiania/wdrażania ich lokalnie. Większość przepływów pracy sprowadza się do:

Uruchom serwer: ollama serve
Uruchom model: ollama run <model>
Zobacz, co jest załadowane/uruchomione: ollama ps
Zarządzaj modelami: ollama pull, ollama list, ollama rm

Zarządzanie modelami Ollama: polecenia pull i list

Lista modeli:

ollama list

To samo co:

ollama ls

To polecenie wyświetla wszystkie modele pobrane na Twój system, wraz z ich rozmiarami na Twoim dysku SSD/HDD, np.

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 tygodnie temu     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 tygodnie temu     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 tygodnie temu     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 tygodnie temu     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 tygodnie temu     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 tygodnie temu     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 tygodnie temu     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 tygodnie temu     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 tygodnie temu

Pobierz model: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

To polecenie pobiera wskazany model (np. Gemma 2B lub mistral-nemo:12b-instruct-2407-q6_K) na Twój system. Pliki modelu mogą być bardzo duże, więc śledź miejsce zajmowane przez modele na dysku twardym, lub SSD. Możesz nawet chcieć przenieść wszystkie modele Ollama z Twojej domyślnej ścieżki do innego większego i lepszego dysku

Przesyłanie modelu: ollama push

ollama push my-custom-model

Przesyła lokalny model do rejestru Ollama, aby inni mogli go pobrać. Najpierw musisz się zalogować (ollama signin) i nazwa modelu musi być z prefiksem Twojej nazwy użytkownika Ollama, np. myuser/my-model. Użyj --insecure, jeśli przesyłasz do prywatnego rejestru przez HTTP:

ollama push myuser/my-model --insecure

Kopiowanie modelu: ollama cp

ollama cp llama3.2 my-llama3-variant

Tworzy lokalną kopię modelu pod nową nazwą bez ponownego pobierania niczego. To bardzo przydatne przed edytowaniem pliku Modelfile — najpierw skopiuj, dostosuj kopię, a oryginalny zostaje niezmieniony:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Polecenie ollama show

ollama show wypisuje informacje o pobranych modelach.

ollama show qwen3:14b

Domyślnie wypisuje kartę modelu (architektura, długość kontekstu, długość osadzenia, kwantyzacja itp.). Są trzy przydatne flagi:

Flag	Co pokazuje
`--modelfile`	Pełny plik Modelfile używany do tworzenia modelu (wiersze FROM, SYSTEM, TEMPLATE, PARAMETER)
`--parameters`	Tylko blok parametrów (np. `num_ctx`, `temperature`, `stop` tokeny)
`--verbose`	Rozszerzona metadane w tym rozmiary tensorów i liczba warstw

# Zobacz dokładnie, jaki systemowy monit i szablon został użyty do stworzenia modelu
ollama show deepseek-r1:8b --modelfile

# Sprawdź rozmiar okna kontekstu i inne parametry wnioskowania
ollama show qwen3:14b --parameters

# Pełne szczegóły na poziomie tensorów (przydatne przy debugowaniu kwantyzacji)
ollama show llama3.2 --verbose

Wyjście --modelfile jest szczególnie przydatne przed dostosowaniem modelu: możesz skopiować bazowy plik Modelfile i edytować od tego miejsca zamiast pisać od zera.

Polecenie ollama serve

ollama serve uruchamia lokalny serwer Ollama (domyślny port HTTP 11434).

ollama serve

“polecenie ollama serve” (przykład przyjazny dla systemd):

# ustaw zmienne środowiskowe, a następnie uruchom serwer
# zrób, aby Ollama był dostępny na adresie IP hosta
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Polecenie ollama run

Uruchom model:

ollama run gpt-oss:20b

To polecenie uruchamia wskazany model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej o jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.

ollama run uruchamia model w sesji interaktywnej, więc w przypadku gpt-oss:120b zobaczysz coś takiego jak

$ ollama run gpt-oss:120b
>>> Wyślij wiadomość (/? dla pomocy)

możesz wpisać swoje pytania lub polecenia, a model odpowie.

>>> kim jesteś?
Myśli...
Użytkownik pyta "kim jesteś?" Proste pytanie. Należy odpowiedzieć jak ChatGPT, model językowy AI, wytrenowany przez OpenAI,
itd. Podaj krótki wprowadzenie. Prawdopodobnie zapytaj, czy potrzebujesz pomocy.
...zakończono myślenie.

Jestem ChatGPT, model językowy AI stworzony przez OpenAI. Zostałem wytrenowany na szerokim zakresie tekstu, więc mogę pomóc
odpowiedzieć na pytania, tworzyć pomysły, wyjaśniać pojęcia, tworzyć wypowiedzi, rozwiązywać problemy i wiele więcej. Myśl
o mnie jako o wszechstronnym asystentowi wirtualnym — tu, by dostarczyć informacje, wsparcie i rozmowę, kiedy tylko będzie potrzebne.
Jak mogę dziś pomóc?

>>> Wyślij wiadomość (/? dla pomocy)

Aby wyjść z interaktywnej sesji ollama, naciśnij Ctrl+D, lub możesz wpisać /bye, ten sam wynik:

>>> /bye
$

Przykłady polecenia ollama run

Aby uruchomić model i zadać pojedyncze pytanie w trybie niinteraktywnym:

printf "Daj mi 10 bash jednoliniowych poleceń do analizy logów.\n" | ollama run llama3.2

Jeśli chcesz zobaczyć szczegółowe wersje odpowiedzi LLM w sesji ollama — uruchom model z --verbose lub -v parametrem:

$ ollama run gpt-oss:20b --verbose
>>> kim jesteś?
Myśli...
Musimy odpowiedzieć na proste pytanie: "kim jesteś?" Użytkownik pyta "kim jesteś?" Możemy odpowiedzieć, że jesteśmy ChatGPT, duży model językowy wytrenowany przez OpenAI. Możemy również wymienić możliwości. Użytkownik prawdopodobnie oczekuje krótkiego wprowadzenia. Zostawimy to przyjazne.
...zakończono myślenie.

Jestem ChatGPT, duży model językowy stworzony przez OpenAI. Jestem tu, by pomóc odpowiadać na pytania, oferować wyjaśnienia,
generować pomysły i rozmawiać na szeroki zakres tematów — od nauki i historii po pisownię kreatywną i codzienne porady. Po prostu powiedz mi, o czym chciałbyś rozmawiać!

łączny czas:       1,118585707s
czas ładowania:        106,690543ms
liczba tokenów oceny wstecznej:    71 token(ów)
czas oceny wstecznej: 30,507392ms
czas oceny wstecznej: 2327,30 tokenów/s
liczba tokenów oceny:           132 token(ów)
czas oceny:        945,801569ms
czas oceny: 139,56 tokenów/s
>>> /bye
$

Tak, to prawda, to 139 tokenów na sekundę. gpt-oss:20b jest bardzo szybki. Jeśli masz, jak ja, GPU z 16 GB VRAM - zobacz szczegóły porównania prędkości LLM w Najlepsze LLM dla Ollama na GPU z 16 GB VRAM.

Porada: Jeśli chcesz, aby model był dostępny przez HTTP dla wielu aplikacji, uruchom serwer za pomocą ollama serve i użyj klienta API zamiast długich sesji interaktywnych.

Pełny opis flag polecenia ollama run

Flag	Opis
`--verbose` / `-v`	Wyświetla statystyki czasowe (tokeny/s, czas ładowania itp.) po każdej odpowiedzi
`-p, --parameters`	Przekazuje parametry modelu w linii poleceń bez pliku Modelfile (patrz poniżej)
`--format string`	Wymusza określony format wyjścia, np. `json`
`--nowordwrap`	Wyłącza automatyczne łamanie linii — przydatne, gdy przekazujesz wyjście do skryptów
`--insecure`	Pozwala na łączenie się z rejestrem przez HTTP (dla prywatnych/rejestru samowystarczalnych)

Nadpisanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Flaga -p pozwala zmieniać parametry wnioskowania w czasie wykonywania bez tworzenia pliku Modelfile. Możesz stosować wiele flag -p:

# Zwiększ rozmiar okna kontekstu i obniż temperaturę
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Uruchom zadanie kodowania z deterministycznym wynikiem
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Powszechne parametry, które możesz ustawić w ten sposób:

Parametr	Efekt
`num_ctx`	Rozmiar okna kontekstu w tokenach (domyślnie zależny od modelu, często 2048–4096)
`temperature`	Losowość: 0 = deterministyczny, 1 = kreatywny
`top_p`	Próg próbkowania jądra
`top_k`	Ogranicza słownictwo do top-K tokenów
`num_predict`	Maksymalna liczba generowanych tokenów (-1 = nieograniczona)
`repeat_penalty`	Kara za powtarzające się tokeny

Wprowadzanie wieloliniowy w REPL

Zawijaj tekst w trójpodwójne cudzysłowy ("\"\"\") aby wprowadzić wieloliniowy monit bez wcześniejszego wysyłania:

>>> """Podsumuj to w jednym zdaniu:
... Szybki brązowy lis skacze nad leniwym psem.
... Wystąpiło to w środę.
... """

Modele wieloczuciowe (obrazy)

Dla modeli wizyjnych (np. gemma3, llava), przekaż ścieżkę obrazu bezpośrednio w monicie:

ollama run gemma3 "Co jest na tym obrazie? /home/user/screenshot.png"

Generowanie osadzeń przez CLI

Modele osadzeń wypisują tablicę JSON zamiast tekstu. Przekieruj tekst bezpośrednio dla szybkiego jednorazowego osadzenia:

echo "Witaj świecie" | ollama run nomic-embed-text

Dla produkcji osadzeń użyj REST endpoint /api/embeddings lub klienta Pythona zamiast CLI.

Wymuszenie wyjścia w formacie JSON (–format)

ollama run llama3.2 --format json "Wyświetl 5 stolic jako JSON"

Modelowi zostaje wskazane, aby zwrócić poprawny JSON. Przydatne, gdy przekierowujesz wyjście do jq lub skryptu oczekującego na dane strukturalne.

Polecenie ollama stop

To polecenie zatrzymuje wskazany uruchomiony model.

ollama stop llama3.1:8b-instruct-q8_0

Ollama automatycznie usuwa modele po pewnym czasie. Możesz określić ten czas, domyślnie to 4 minuty. Jeśli nie chcesz czekać na pozostały czas, możesz użyć tego polecenia ollama stop. Możesz również wyrzucić model z VRAM, wywołując endpoint API /generate z parametrem keep_alive=0, patrz poniżej na opis i przykład.

Polecenie ollama ps

ollama ps pokazuje obecnie uruchomione modele i sesje (przydatne do debugowania „czemu moja VRAM jest pełna?”).

ollama ps

Przykład wyjścia ollama ps jest poniżej:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuty od teraz

Zobacz tutaj na moim komputerze, że gpt-oss:20b bardzo dobrze mieści się w moim GPU 16 GB VRAM i zajmuje tylko 14 GB.

Jeśli wykonam ollama run gpt-oss:120b i potem wywołam ollama ps, wynik nie będzie taki jasny: 78% warstw jest na CPU, a to jest tylko z kontekstem okna 4096 tokenów. Będzie gorzej, jeśli będę musiał zwiększyć kontekst.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuty od teraz

Polecenie ollama launch (integracje AI kodowania)

ollama launch to polecenie wprowadzone w Ollama v0.15 (styczeń 2026), które daje Ci zero-konfiguracyjne, jednoliniowe ustawienie popularnych asystentów kodowania AI działających przeciwko lokalnemu serwerowi Ollama.

Dlaczego używać ollama launch?

Przed ollama launch, podłączenie agenta kodowania, takiego jak Claude Code lub Codex, do lokalnego backendu Ollama wymagało ręcznego ustawiania zmiennych środowiskowych, wskazania narzędzia do odpowiedniego punktu końcowego API i wyboru kompatybilnego modelu. ollama launch obsługuje wszystko za Ciebie interaktywnie.

Jeśli już lokalnie uruchamiasz Ollama i chcesz agenty kodowania bez płacenia za wywołania API lub wysyłania kodu do chmury, ollama launch to najkrótsza droga tam.

Wspierane integracje

Integracja	Co to jest
`claude`	Anthropic’s Claude Code — agenty kodowania
`codex`	OpenAI’s Codex CLI agenty kodowania
`droid`	Factory’s AI agent kodowania
`opencode`	Otwarty agent kodowania

Podstawowe użycie

# Interaktywny wybór — wybierz integrację z menu
ollama launch

# Uruchom konkretną integrację bezpośrednio
ollama launch claude

# Uruchom z konkretnym modelem
ollama launch claude --model qwen3-coder

# Skonfiguruj integrację bez uruchamiania jej (przydatne do inspekcji ustawień)
ollama launch droid --config

Zalecane modele

Agenty kodowania potrzebują długiego okna kontekstu, aby przechowywać pełen kontekst pliku i historię konwersacji wielokrotnego przebiegu. Ollama zaleca modele z co najmniej 64 000 tokenów kontekstu:

Model	Uwagi
`qwen3-coder`	Silna wydajność kodowania, długi kontekst, działa lokalnie
`glm-4.7-flash`	Szybka lokalna opcja
`devstral:24b`	Model kodowania skupiony na Mistralu

Jeśli Twoje GPU nie może pomieścić modelu, Ollama oferuje również wersje hostowane w chmurze (np. qwen3-coder:480b-cloud), które integrują się w ten sam sposób, ale kierują wnioskowanie do warstwy chmurowej Ollama — wymagając ollama signin.

Przykład: uruchamianie Claude Code lokalnie z Ollama

# 1. Upewnij się, że model jest dostępny
ollama pull qwen3-coder

# 2. Uruchom Claude Code przeciwko niemu
ollama launch claude --model qwen3-coder

Ollama ustawia odpowiednie zmienne środowiskowe i automatycznie uruchamia Claude Code wskazując na http://localhost:11434. Możesz wtedy używać Claude Code dokładnie tak, jak zwykle — jedyną różnicą jest to, że wnioskowanie odbywa się na Twoim własnym sprzęcie.

Węzły wydajności (`OLLAMA_NUM_PARALLEL`)

Jeśli widzisz kolejki lub timeouty pod obciążeniem, pierwszy węzeł do poznanie to OLLAMA_NUM_PARALLEL.

OLLAMA_NUM_PARALLEL = ile żądań Ollama wykonuje równolegle.
Wyższa wartość może zwiększyć przepustowość, ale może zwiększyć presję na VRAM i wstrząsy opóźnienia.

Szybki przykład:

OLLAMA_NUM_PARALLEL=2 ollama serve

Dla pełnej wersji (w tym strategie dostrajania i tryby awaryjne), zobacz:

Jak Ollama obsługuje żądania równoległe

Zwolnienie modelu Ollama z VRAM (keep_alive)

Kiedy model jest załadowany do VRAM (pamięć GPU), pozostaje tam nawet po zakończeniu jego użycia. Aby jawnie zwolnić model z VRAM i zwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.

Zwolnienie modelu z VRAM za pomocą curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Zastąp MODELNAME rzeczywistą nazwą modelu, na przykład:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Zwolnienie modelu z VRAM za pomocą Pythona:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

To szczególnie przydatne, gdy:

Potrzebujesz zwolnić pamięć GPU dla innych aplikacji
Uruchamiasz wiele modeli i chcesz zarządzać użyciem VRAM
Zakończyłeś korzystanie z dużego modelu i chcesz natychmiast zwolnić zasoby

Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany do pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiastowo odzyskuje model z VRAM.

Dostosowywanie modeli Ollama (monit systemowy, plik Modelfile)

Ustaw monit systemowy: Wewnątrz REPL Ollama możesz ustawić monit systemowy, aby dostosować zachowanie modelu:
```
>>> /set system Dla wszystkich pytań zadawanych odpowiadaj po prostu po polsku, unikając jak najwięcej technicznego żargonu
>>> /save ipe
>>> /bye
```
Następnie uruchom dostosowany model:
```
ollama run ipe
```
To ustawia monit systemowy i zapisuje model do przyszłego użycia.
Utwórz niestandardowy plik modelu: Utwórz plik tekstowy (np. custom_model.txt) z poniższą strukturą:
```
FROM llama3.1
SYSTEM [Twoje niestandardowe instrukcje tutaj]
```
Następnie uruchom:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
To tworzy dostosowany model na podstawie instrukcji w pliku.

Zalogowanie się i wylogowanie z Ollama (uwierzytelnienie rejestru)

ollama signin
ollama signout

ollama signin uwierzytelnia lokalną instalację Ollama z rejestrem Ollama na ollama.com. Po zalogowaniu klient lokalnie przechowuje poświadczenia i automatycznie ponownie je wykorzystuje dla kolejnych poleceń.

Co umożliwia zalogowanie się:

Pobieranie i przesyłanie prywatnych modeli z Twojego konta lub organizacji.
Używanie modeli hostowanych w chmurze (np. qwen3-coder:480b-cloud), które są zbyt duże, aby działać lokalnie.
Publikowanie modeli w rejestrze za pomocą ollama push.

Alternatywa: uwierzytelnienie za pomocą klucza API

Jeśli uruchamiasz Ollama w potoku CI lub serwerze bez interfejsu ollama signin, utwórz klucz API w ustawieniach swojego konta Ollama i eksponuj go jako zmienną środowiskową:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Zmienna OLLAMA_API_KEY jest automatycznie pobierana przez każde polecenie Ollama i żądanie API — nie ma potrzeby uruchamiania ollama signin na każdym komputerze.

Użycie polecenia ollama run z plikami (podsumowanie, przekierowanie)

Podsumowanie tekstu z pliku:
```
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txt
```
To polecenie podsumowuje zawartość input.txt za pomocą wskazanego modelu.
Zapisywanie odpowiedzi modelu do pliku:
```
ollama run llama3.2 "Opowiedz mi o energii odnawialnej." > output.txt
```
To polecenie zapisuje odpowiedź modelu do output.txt.

Użycie CLI Ollama (generowanie tekstu, analiza)

Generowanie tekstu:

Podsumowanie dużego pliku tekstowego:

ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt

Generowanie treści:

ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w medycynie." > article.txt

Odpowiadanie na konkretne pytania:

ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną na medycynę?"

Przetwarzanie danych i analiza:
- Klasyfikacja tekstu na pozytywny, negatywny lub neutralny:
```
ollama run llama3.2 "Analizuj sentyment tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była wolna.'"
```
- Kategoryzacja tekstu na wcześniej zdefiniowane kategorie: Użyj podobnych poleceń, aby klasyfikować lub kategoryzować tekst na podstawie wcześniej zdefiniowanych kryteriów.

Użycie Ollama z Pythonem (klient i API)

Zainstaluj bibliotekę Pythona Ollama:
```
pip install ollama
```

Generuj tekst za pomocą Pythona:

import ollama

response = ollama.generate(model='gemma:2b', prompt='co to jest kubit?')
print(response['response'])

Ten fragment kodu generuje tekst za pomocą wskazanego modelu i monitu.

Dla zaawansowanej integracji z Pythonem, eksploruj użycie API Web Search Ollama w Pythonie, który obejmuje możliwości wyszukiwania w sieci, wywoływanie narzędzi i integrację z serwerami MCP. Jeśli tworzysz aplikacje z AI, nasze porównanie asystentów kodowania AI mogą pomóc Ci wybrać odpowiednie narzędzia do rozwoju.

Szukasz interfejsu webowego? Otwórz WebUI oferuje samowystarczalny interfejs z możliwością RAG i wsparciem wielu użytkowników. Dla wysokiej wydajności wdrożeń produkcyjnych, rozważ vLLM jako alternatywę. Aby porównać Ollama z innymi lokalnymi i chmurowymi opcjami infrastruktury LLM, zobacz Hosting LLM: Lokalne, Samowystarczalne & Porównanie Infrastruktury Chmurowej.

Karta cheat Ollama CLI: ls, serve, run, ps + polecenia (aktualizacja 2026)

Instalacja Ollama (pobieranie i instalacja CLI)

Wymagania systemowe Ollama (RAM, przechowywanie, CPU)

Podstawowe polecenia CLI Ollama

CLI Ollama (co to jest)

Zarządzanie modelami Ollama: polecenia pull i list

Polecenie ollama show

Polecenie ollama serve

Polecenie ollama run

Przykłady polecenia ollama run

Pełny opis flag polecenia ollama run

Nadpisanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Wprowadzanie wieloliniowy w REPL

Modele wieloczuciowe (obrazy)

Generowanie osadzeń przez CLI

Wymuszenie wyjścia w formacie JSON (–format)

Polecenie ollama stop

Polecenie ollama ps

Polecenie ollama launch (integracje AI kodowania)

Dlaczego używać ollama launch?

Wspierane integracje

Podstawowe użycie

Zalecane modele

Przykład: uruchamianie Claude Code lokalnie z Ollama

Węzły wydajności (`OLLAMA_NUM_PARALLEL`)

Zwolnienie modelu Ollama z VRAM (keep_alive)

Dostosowywanie modeli Ollama (monit systemowy, plik Modelfile)

Zalogowanie się i wylogowanie z Ollama (uwierzytelnienie rejestru)

Użycie polecenia ollama run z plikami (podsumowanie, przekierowanie)

Użycie CLI Ollama (generowanie tekstu, analiza)

Użycie Ollama z Pythonem (klient i API)

Przydatne linki

Konfiguracja i zarządzanie

Alternatywy i porównania

Wydajność i sprzęt

Integracja i rozwój

Instalacja Ollama (pobieranie i instalacja CLI)

Wymagania systemowe Ollama (RAM, przechowywanie, CPU)

Podstawowe polecenia CLI Ollama

CLI Ollama (co to jest)

Zarządzanie modelami Ollama: polecenia pull i list

Polecenie ollama show

Polecenie ollama serve

Polecenie ollama run

Przykłady polecenia ollama run

Pełny opis flag polecenia ollama run

Nadpisanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Wprowadzanie wieloliniowy w REPL

Modele wieloczuciowe (obrazy)

Generowanie osadzeń przez CLI

Wymuszenie wyjścia w formacie JSON (–format)

Polecenie ollama stop

Polecenie ollama ps

Polecenie ollama launch (integracje AI kodowania)

Dlaczego używać ollama launch?

Wspierane integracje

Podstawowe użycie

Zalecane modele

Przykład: uruchamianie Claude Code lokalnie z Ollama

Węzły wydajności (OLLAMA_NUM_PARALLEL)

Zwolnienie modelu Ollama z VRAM (keep_alive)

Dostosowywanie modeli Ollama (monit systemowy, plik Modelfile)

Zalogowanie się i wylogowanie z Ollama (uwierzytelnienie rejestru)

Użycie polecenia ollama run z plikami (podsumowanie, przekierowanie)

Użycie CLI Ollama (generowanie tekstu, analiza)

Użycie Ollama z Pythonem (klient i API)

Przydatne linki

Konfiguracja i zarządzanie

Alternatywy i porównania

Wydajność i sprzęt

Integracja i rozwój

Węzły wydajności (`OLLAMA_NUM_PARALLEL`)