Skrót komend Ollama CLI: ls, serve, run, ps i inne (aktualizacja 2026)
Zaktualizowana lista poleceń Ollama – ls, ps, run, serve i inne
Ten ściągawka CLI Ollama skupia się na poleceniach, których używasz na co dzień (ollama ls, ollama serve, ollama run, ollama ps, zarządzanie modelami i typowe przepływy pracy), wraz z przykładami do kopiowania i wklejenia.
Zawiera również krótką sekcję „regulacji wydajności", która pomoże Ci odkryć (a następnie dogłębnie przeanalizować) OLLAMA_NUM_PARALLEL i powiązane ustawienia.

Ta ściągawka Ollama koncentruje się na poleceniach CLI, zarządzaniu modelami i dostosowywaniu, ale mamy tu również kilka wywołań curl.
Aby uzyskać pełny obraz tego, gdzie Ollama mieści się wśród opcji lokalnych, self-hosted i chmurowych — w tym vLLM, Docker Model Runner, LocalAI i dostawców chmury — zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej. Jeśli porównujesz różne rozwiązania do hostingu lokalnych LLM, sprawdź naszą wszechstronną porównawczą analizę Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla osób szukających alternatyw dla interfejsów wiersza polecenia, Docker Model Runner oferuje inne podejście do wdrażania LLM.
Instalacja Ollama (pobieranie i instalacja CLI)
- Opcja 1: Pobieranie ze strony internetowej
- Odwiedź ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
- Opcja 2: Instalacja przez wiersz polecenia
- Dla użytkowników Mac i Linux użyj polecenia:
curl -fsSL https://ollama.com/install.sh | sh
- Postępuj zgodnie z instrukcjami na ekranie i podaj hasło, jeśli zostaniesz o to poproszony.
Wymagania systemowe Ollama (RAM, pamięć, procesor)
- System operacyjny: Mac, Linux lub Windows
- Pamięć (RAM): minimum 8 GB, zalecane 16 GB lub więcej
- Pamięć: co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być bardzo duże, zobacz więcej tutaj Przeniesienie modeli Ollama na inny dysk )
- Procesor: stosunkowo nowoczesny CPU (z ostatnich 5 lat). Jeśli jesteś ciekawy, jak Ollama wykorzystuje różne architekturey CPU, zobacz naszą analizę jak Ollama wykorzystuje rdzenie wydajnościowe i efektywne procesorów Intel.
W przypadku poważnych obciążeń AI możesz chcieć porównać opcje sprzętowe. Przeprowadziliśmy testy wydajności NVIDIA DGX Spark vs Mac Studio vs RTX-4080 z Ollama, a jeśli rozważasz inwestycję w sprzęt wysokiej klasy, nasza porównawcza analiza cen i możliwości DGX Spark dostarcza szczegółowej analizy kosztów.
Podstawowe polecenia CLI Ollama
| Polecenie | Opis |
|---|---|
ollama serve |
Uruchamia serwer Ollama (domyślny port 11434). |
ollama run <model> |
Uruchamia określony model w interaktywnym trybie REPL. |
ollama pull <model> |
Pobiera określony model do Twojego systemu. |
ollama push <model> |
Wysyła model do rejestru Ollama. |
ollama list |
Wyświetla listę wszystkich pobranych modeli. To samo co ollama ls. |
ollama ps |
Pokazuje obecnie uruchomione (załadowane) modele. |
ollama stop <model> |
Zatrzymuje (odładowuje) uruchomiony model. |
ollama rm <model> |
Usuwa model z Twojego systemu. |
ollama cp <źródło> <cel> |
Kopiuje model pod nową nazwą lokalnie. |
ollama show <model> |
Wyświetla szczegóły modelu (architektura, parametry, szablon itp.). |
ollama create <model> |
Tworzy nowy model na podstawie pliku Modelfile. |
ollama launch [integracja] |
Konfiguracja zerowa uruchomienia asystentów kodowania AI (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autoryzacja w rejestrze Ollama (umożliwia korzystanie z prywatnych modeli i modeli chmurowych). |
ollama signout |
Wylogowanie z rejestru Ollama. |
ollama help |
Dostarcza pomocy dotyczące dowolnego polecenia. |
Skrócone linki: Polecenie Ollama serve · Polecenie Ollama launch · Polecenie Ollama run · Flagi polecenia Ollama run · Polecenie Ollama ps · Polecenie Ollama show · Ollama signin · Podstawy CLI Ollama · Regulacje wydajności (OLLAMA_NUM_PARALLEL) · Głęboka analiza żądań równoległych
CLI Ollama (co to jest)
CLI Ollama to interfejs wiersza polecenia do zarządzania modelami i ich uruchamiania/obsługi lokalnie. Większość przepływów pracy sprowadza się do:
- Uruchomienie serwera:
ollama serve - Uruchomienie modelu:
ollama run <model> - Sprawdzenie, co jest załadowane/uruchomione:
ollama ps - Zarządzanie modelami:
ollama pull,ollama list,ollama rm
Zarządzanie modelami Ollama: polecenia pull i list
Lista modeli:
ollama list
to samo co:
ollama ls
To polecenie wyświetla wszystkie modele pobrane do Twojego systemu wraz z ich rozmiarami plików na dysku HDD/SSD, np.:
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Pobieranie modelu: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
To polecenie pobiera określony model (np. Gemma 2B lub mistral-nemo:12b-instruct-2407-q6_K) do Twojego systemu. Pliki modelu mogą być bardzo duże, więc śledź miejsce zajęte przez modele na dysku twardym lub SSD. Możesz nawet chcieć przenieść wszystkie modele Ollama z katalogu domowego na większy i lepszy dysk
Wysyłanie modelu: ollama push
ollama push my-custom-model
Wysyła lokalny model do rejestru Ollama, aby inni mogli go pobrać.
Najpierw musisz się zalogować (ollama signin), a nazwa modelu musi mieć prefix Twojej nazwy użytkownika Ollama, np. myuser/my-model.
Użyj --insecure, jeśli wysyłasz do prywatnego rejestru przez HTTP:
ollama push myuser/my-model --insecure
Kopiowanie modelu: ollama cp
ollama cp llama3.2 my-llama3-variant
Tworzy lokalną kopię modelu pod nową nazwą bez ponownego pobierania niczego. To przydatne przed edycją pliku Modelfile — najpierw skopiuj, dostosuj kopię i zachowaj oryginał nienaruszony:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Polecenie Ollama show
ollama show drukuje informacje o pobranym modelu.
ollama show qwen3:14b
Domyślnie drukuje kartę modelu (architektura, długość kontekstu, długość osadzania, kwantyzacja itp.). Istnieją trzy przydatne flagi:
| Flag | Co pokazuje |
|---|---|
--modelfile |
Pełny plik Modelfile użyty do stworzenia modelu (linie FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Tylko blok parametrów (np. num_ctx, temperature, tokeny stop) |
--verbose |
Rozszerzone metadane, w tym kształty tensorów i liczniki warstw |
# Zobacz dokładnie, z jakim systemowym promptem i szablonem został zbudowany model
ollama show deepseek-r1:8b --modelfile
# Sprawdź wielkość okna kontekstowego i inne parametry wnioskowania
ollama show qwen3:14b --parameters
# Pełne szczegóły na poziomie tensorów (przydatne przy debugowaniu kwantyzacji)
ollama show llama3.2 --verbose
Wyjście --modelfile jest szczególnie przydatne przed dostosowaniem modelu: możesz skopiować podstawowy plik Modelfile i edytować go zamiast pisać od zera.
Polecenie Ollama serve
ollama serve uruchamia lokalny serwer Ollama (domyślny port HTTP 11434).
ollama serve
Polecenie “ollama serve” (przyjazny dla systemd przykład):
# ustaw zmienne środowiskowe, a następnie uruchom serwer
# udostępnij ollama na adresie IP hosta
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Polecenie Ollama run
Uruchomienie modelu:
ollama run gpt-oss:20b
To polecenie uruchamia określony model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej o tym, jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.
ollama run uruchamia model w sesji interaktywnej,
więc w przypadku gpt-oss:120b zobaczysz coś w stylu:
$ ollama run gpt-oss:120b
>>> Wyślij wiadomość (/? dla pomocy)
możesz wpisać swoje pytania lub polecenia, a model odpowie.
>>> kim jesteś?
Thinking...
Użytkownik pyta "kim jesteś?" Proste pytanie. Należy odpowiedzieć jako ChatGPT, model językowy AI, wytrenowany przez OpenAI,
itd. Dostarcz krótkie wprowadzenie. Prawdopodobnie zapytaj, czy potrzebują pomocy.
...done thinking.
Jestem ChatGPT, modelem językowym AI stworzonym przez OpenAI. zostałem przeszkolony na szerokim zakresie tekstów, więc mogę pomóc
odpowiadać na pytania, wymyślać pomysły, wyjaśniać koncepcje, tworzyć szkice pisma, rozwiązywać problemy i wiele więcej. Traktuj
mnie jako wszechstronnego wirtualnego asystenta — tu, aby dostarczać informacje, wsparcie i rozmowy, kiedykolwiek ich potrzebujesz. Jak mogę Ci dzisiaj pomóc?
>>> Wyślij wiadomość (/? dla pomocy)
Aby wyjść z interaktywnej sesji ollama, naciśnij Ctrl+D lub wpisz /bye, efekt będzie taki sam:
>>> /bye
$
Przykłady polecenia Ollama run
Aby uruchomić model i zadać pojedyncze pytanie w nieinteraktywnym trybie:
printf "Daj mi 10 jednostronicowych poleceń bash do analizy logów.\n" | ollama run llama3.2
Jeśli chcesz zobaczyć szczegółową, wyczerpującą odpowiedź LLM w sesji ollama - uruchom model z parametrem --verbose lub -v:
$ ollama run gpt-oss:20b --verbose
>>> kim jesteś?
Thinking...
Musimy odpowiedzieć na proste pytanie: "kim jesteś?" Użytkownik pyta "kim jesteś?" Możemy odpowiedzieć, że
jesteśmy ChatGPT, dużym modelem językowym przeszkolonym przez OpenAI. Możemy również wspomnieć o możliwościach. Użytkownik prawdopodobnie oczekuje
krótkiego wprowadzenia. Zachowamy przyjazny ton.
...done thinking.
Jestem ChatGPT, dużym modelem językowym stworzonym przez OpenAI. Jestem tutaj, aby pomóc odpowiadać na pytania, oferować wyjaśnienia,
wymyślać pomysły i rozmawiać o szerokiej gamie tematów — od nauki i historii po kreatywne pisanie
i codzienne porady. Daj mi znać, o czym chciałbyś porozmawiać!
total duration: 1.118585707s
load duration: 106.690543ms
prompt eval count: 71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate: 2327.30 tokens/s
eval count: 132 token(s)
eval duration: 945.801569ms
eval rate: 139.56 tokens/s
>>> /bye
$
Tak, to prawda, to jest 139 tokenów na sekundę. Model gpt-oss:20b jest bardzo szybki. Jeśli Ty, tak jak ja, masz GPU z 16 GB VRAM - zobacz szczegóły porównania prędkości LLM w Najlepsze LLM dla Ollama na GPU 16GB VRAM.
Wskazówka: Jeśli chcesz, aby model był dostępny przez HTTP dla wielu aplikacji, uruchom serwer z ollama serve i użyj klienta API zamiast długich sesji interaktywnych.
Flagi polecenia Ollama run (pełne odniesienie)
| Flag | Opis |
|---|---|
--verbose / -v |
Wydrukuj statystyki czasowe (tokeny/s, czas ładowania itp.) po każdej odpowiedzi |
-p, --parameters |
Przekazuj parametry modelu w linii bez pliku Modelfile (zobacz poniżej) |
--format string |
Wymuś konkretny format wyjścia, np. json |
--nowordwrap |
Wyłącz automatowe zawijanie słów — przydatne przy przekierowywaniu wyjścia do skryptów |
--insecure |
Pozwól na połączenie z rejestrą przez HTTP (dla prywatnych/self-hosted rejestrów) |
Nadszywanie parametrów modelu bez pliku Modelfile (-p / –parameters)
Flaga -p pozwala zmieniać parametry wnioskowania w czasie wykonywania bez tworzenia pliku Modelfile.
Możesz stosować wiele flag -p:
# Zwiększ okno kontekstowe i obniż temperaturę
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Uruchom zadanie kodowania z deterministycznym wyjściem
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Częste parametry, które można ustawić w ten sposób:
| Parametr | Efekt |
|---|---|
num_ctx |
Rozmiar okna kontekstowego w tokenach (domyślnie zależy od modelu, często 2048–4096) |
temperature |
Losowość: 0 = deterministyczny, 1 = kreatywny |
top_p |
Próg próbkowania jądra |
top_k |
Ogranicza słownictwo do najlepszych K tokenów |
num_predict |
Maksymalna liczba generowanych tokenów (-1 = nieograniczona) |
repeat_penalty |
Kary za powtarzanie tokenów |
Wprowadzanie wielolinijkowe w REPL
Otocz tekst potrójnymi cudzysłowami ("""), aby wprowadzić wielolinijkowy prompt bez wczesnego wysyłania:
>>> """Podsumuj to w jednym zdaniu:
... Szybki brązowy lis przeskakuje przez leniwego psa.
... Stało się to we wtorek.
... """
Modele multimodalne (obrazy)
Dla modeli zdolnych do widzenia (np. gemma3, llava), przekazy ścieżkę do obrazu bezpośrednio w prompcie:
ollama run gemma3 "Co jest na tym obrazie? /home/user/screenshot.png"
Generowanie osadzeń (embeddings) przez CLI
Modele osadzania zwracają tablicę JSON zamiast tekstu. Przekieruj tekst bezpośrednio dla szybkich, jednorazowych osadzeń:
echo "Hello world" | ollama run nomic-embed-text
Dla obciążeń produkcyjnych dotyczących osadzeń użyj punktu końcowego REST /api/embeddings lub klienta Python.
Wymuszanie wyjścia JSON (–format)
ollama run llama3.2 --format json "Wypisz 5 stolic jako JSON"
Model jest instruowany do zwrócenia poprawnego JSON. Przydatne przy przekierowywaniu wyjścia do jq lub skryptu oczekującego strukturalnych danych.
Polecenie Ollama stop
To polecenie zatrzymuje określony uruchomiony model.
ollama stop llama3.1:8b-instruct-q8_0
Ollama wyrzuca modele automagicznie po pewnym czasie.
Możesz określić ten czas, domyślnie jest to 4 minuty.
Jeśli nie chcesz czekać do upływu pozostałego czasu, możesz chcieć użyć tego polecenia ollama stop.
Możesz również wyrzucić model z VRAM, wywołując punkt końcowy API /generate z parametrem keep_alive=0, zobacz poniżej opis i przykład.
Polecenie Ollama ps
ollama ps pokazuje obecnie uruchomione modele i sesje (przydatne do debugowania „dlaczego moja VRAM jest pełna?").
ollama ps
Przykład wyjścia ollama ps jest poniżej:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutes from now
Widzisz tutaj na moim PC, że gpt-oss:20b mieści się bardzo dobrze w 16 GB VRAM mojego GPU, i zajmuje tylko 14 GB.
Jeśli wykonam ollama run gpt-oss:120b, a następnie wywołam ollama ps, wynik nie będzie tak jasny:
78% warstw jest na CPU, i to tylko z oknem kontekstowym 4096 tokenów. Będzie więcej, jeśli będę potrzebował zwiększyć kontekst.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutes from now
Polecenie Ollama launch (integracje AI do kodowania)
ollama launch to polecenie wprowadzone w Ollama v0.15 (styczeń 2026), które zapewnia konfigurację zerową, jednostronicową instalację dla popularnych asystentów kodowania AI działających przeciwko Twojemu lokalnemu serwerowi Ollama.
Dlaczego używać ollama launch?
Przed ollama launch, podpięcie agenta kodowania, takiego jak Claude Code lub Codex, do lokalnego backendu Ollama oznaczało ręczne ustawianie zmiennych środowiskowych, wskazywanie narzędzia do odpowiedniego punktu końcowego API i wybieranie kompatybilnego modelu. ollama launch zajmuje się tym wszystkim dla Ciebie interaktywnie.
Jeśli już uruchamiasz Ollama lokalnie i chcesz asystenta kodowania agentowego bez płacenia za wywołania API lub wysyłania kodu do chmury, ollama launch jest najszybszą ścieżką.
Wspierane integracje
| Integracja | Co to jest |
|---|---|
claude |
Asystent kodowania Claude Code firmy Anthropic |
codex |
Asystent kodowania Codex firmy OpenAI |
droid |
Asystent kodowania AI firmy Factory |
opencode |
Asystent kodowania open-source |
Podstawowe użycie
# Interaktywny wybór — wybierz integrację z menu
ollama launch
# Uruchom konkretną integrację bezpośrednio
ollama launch claude
# Uruchom z konkretnym modelem
ollama launch claude --model qwen3-coder
# Skonfiguruj integrację bez uruchamiania (przydatne do inspekcji ustawień)
ollama launch droid --config
Polecane modele
Agenci kodowania potrzebują długiego okna kontekstowego, aby przechowywać kontekst całego pliku i historię rozmów wieloturnowych. Ollama zaleca modele z co najmniej 64 000 tokenami kontekstu:
| Model | Uwagi |
|---|---|
qwen3-coder |
Silna wydajność kodowania, długi kontekst, działa lokalnie |
glm-4.7-flash |
Szybka opcja lokalna |
devstral:24b |
Model skupiony na kodowaniu od Mistral |
Jeśli Twoje GPU nie mieści modelu, Ollama oferuje również warianty hostowane w chmurze (np. qwen3-coder:480b-cloud), które integrują się w ten sam sposób, ale kierują wnioskowanie do warstwy chmurowej Ollama — wymagając ollama signin.
Przykład: uruchamianie Claude Code lokalnie z Ollama
# 1. Upewnij się, że model jest dostępny
ollama pull qwen3-coder
# 2. Uruchom Claude Code przeciwko niemu
ollama launch claude --model qwen3-coder
Ollama ustawia niezbędne zmienne środowiskowe i uruchamia Claude Code wskazując na http://localhost:11434 automatycznie.
Możesz następnie używać Claude Code dokładnie tak, jak normalnie — jedyną różnicą jest to, że wnioskowanie dzieje się na Twoim własnym sprzęcie.
Regulacje wydajności (OLLAMA_NUM_PARALLEL)
Jeśli widzisz kolejkowanie lub przekroczenia czasu oczekiwania pod obciążeniem, pierwszą regulacją do nauki jest OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= ile żądań Ollama wykonuje równolegle.- Wyższa wartość może zwiększyć przepustowość, ale może zwiększyć presję na VRAM i skoki opóźnień.
Szybki przykład:
OLLAMA_NUM_PARALLEL=2 ollama serve
Dla pełnego wyjaśnienia (w tym strategii strojenia i trybów awarii), zobacz:
Zwalnianie modelu Ollama z VRAM (keep_alive)
Kiedy model jest załadowany do VRAM (pamięć GPU), pozostaje tam nawet po zakończeniu jego używania. Aby jawnie zwolnić model z VRAM i uwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.
- Zwolnij model z VRAM używając curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Zastąp MODELNAME swoją rzeczywistą nazwą modelu, na przykład:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Zwolnij model z VRAM używając Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
To jest szczególnie przydatne, gdy:
- Potrzebujesz uwolnić pamięć GPU dla innych aplikacji
- Uruchamiasz wiele modeli i chcesz zarządzać użytkowaniem VRAM
- Zakończyłeś używanie dużego modelu i chcesz natychmiast zwolnić zasoby
Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany w pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiast odładowuje model z VRAM.
Jeśli wolisz całkowicie unikać warstwy abstrakcji Ollama i chcesz bezpośredniej kontroli nad tym, który model GGUF jest rezydentny w dowolnym momencie, tryb routera llama-server obejmuje podejście native dla llama.cpp do dynamicznego przełączania modeli.
Dostosowywanie modeli Ollama (system prompt, Modelfile)
-
Ustaw System Prompt: Wewnątrz REPL Ollama możesz ustawić system prompt, aby dostosować zachowanie modelu:
>>> /set system Dla wszystkich pytań odpowiadaj w prostym języku angielskim, unikając żargonu technicznego tak bardzo, jak to możliwe >>> /save ipe >>> /byeNastępnie uruchom dostosowany model:
ollama run ipeTo ustawia system prompt i zapisuje model do przyszłego użycia.
-
Stwórz plik niestandardowego modelu: Stwórz plik tekstowy (np.
custom_model.txt) z następującą strukturą:FROM llama3.1 SYSTEM [Twoje niestandardowe instrukcje tutaj]Następnie uruchom:
ollama create mymodel -f custom_model.txt ollama run mymodelTo tworzy dostosowany model na podstawie instrukcji w pliku".
Ollama signin i signout (autoryzacja rejestru)
ollama signin
ollama signout
ollama signin autentyfikuje Twoją lokalną instalację Ollama z rejestrą Ollama na ollama.com. Po zalogowaniu klient przechowuje poświadczenia lokalnie i automatycznie je ponownie używa dla kolejnych poleceń.
Cosignin odblokowuje:
- Pobieranie i wysyłanie prywatnych modeli z Twojego konta lub organizacji.
- Używanie modeli hostowanych w chmurze (np.
qwen3-coder:480b-cloud), które są zbyt duże, aby działać lokalnie. - Publikowanie modeli do rejestru z
ollama push.
Alternatywa: autoryzacja kluczem API
Jeśli uruchamiasz Ollama w potoku CI lub na serwerze bezheadless, gdzie interaktywne ollama signin nie jest praktyczne, stwórz klucz API w ustawieniach konta Ollama i wystaw go jako zmienną środowiskową:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
Zmienna OLLAMA_API_KEY jest automatycznie podchwycona przez każde polecenie Ollama i żądanie API — nie ma potrzeby uruchamiania ollama signin na każdej maszynie.
Używanie polecenia Ollama run z plikami (podsumowanie, przekierowanie)
-
Podsumowanie tekstu z pliku:
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txtTo polecenie podsumowuje zawartość pliku
input.txtużywając określonego modelu. -
Zapisywanie odpowiedzi modelu do pliku:
ollama run llama3.2 "Powiedz mi o energii odnawialnej." > output.txtTo polecenie zapisuje odpowiedź modelu do pliku
output.txt.
Przypadki użycia CLI Ollama (generowanie tekstu, analiza)
-
Generowanie tekstu:
- Podsumowanie dużego pliku tekstowego:
ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt - Generowanie treści:
ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w opiece zdrowotnej." > article.txt - Odpowiadanie na konkretne pytania:
ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną na opiekę zdrowotną?"
.
- Podsumowanie dużego pliku tekstowego:
-
Przetwarzanie i analiza danych:
- Klasyfikacja tekstu jako pozytywny, negatywny lub neutralny sentyment:
ollama run llama3.2 "Przeanalizuj sentyment tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była powolna.'" - Kategoryzacja tekstu do zdefiniowanych wcześniej kategorii: Użyj podobnych poleceń do klasyfikacji lub kategoryzacji tekstu na podstawie zdefiniowanych kryteriów.
- Klasyfikacja tekstu jako pozytywny, negatywny lub neutralny sentyment:
Używanie Ollama z Pythonem (klient i API)
- Instalacja biblioteki Python Ollama:
pip install ollama - Generowanie tekstu używając Python:
Ten fragment kodu generuje tekst używając określonego modelu i promptu.
import ollama response = ollama.generate(model='gemma:2b', prompt='co to jest qubit?') print(response['response'])
Dla zaawansowanej integracji Python, odkryj używanie API wyszukiwania webowego Ollama w Python, które obejmuje możliwości wyszukiwania webowego, wywoływania narzędzi i integrację z serwerami MCP. Jeśli budujesz aplikacje zasilane AI, nasze porównanie asystentów kodowania AI może pomóc Ci wybrać odpowiednie narzędzia do rozwoju.
Szukasz interfejsu opartego na sieci? Open WebUI dostarcza self-hosted interfejs z możliwościami RAG i obsługą wielu użytkowników. Dla wdrożeń produkcyjnych o wysokiej wydajności, rozważ vLLM jako alternatywę. Aby porównać Ollama z innymi lokalnymi i chmurowymi wyborami infrastruktury LLM, zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej.
Przydatne linki
Konfiguracja i zarządzanie
Alternatywy i porównania
- Lokalny hosting LLM: Kompletny przewodnik 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio i więcej
- Szybki start vLLM: Wysokowydajna obsługa LLM
- Docker Model Runner vs Ollama: Którego wybrać?
- Pierwsze znaki enshittification Ollama
Wydajność i sprzęt
- Jak Ollama obsługuje żądania równoległe
- Jak Ollama wykorzystuje rdzenie wydajnościowe i efektywne procesorów Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama
- DGX Spark vs. Mac Studio: Praktyczny, sprawdzony pod kątem ceny, spojrzenie na osobisty superkomputer AI od NVIDIA
Integracja i rozwój
- Używanie API wyszukiwania webowego Ollama w Python
- Porównanie asystentów kodowania AI
- Open WebUI: Self-hosted interfejs LLM
- Otwarte interfejsy czatów LLM dla lokalnych instancji Ollama
- Ograniczanie LLM z wyjściem strukturalnym: Ollama, Qwen3 i Python lub Go
- Integracja Ollama z Pythonem: Przykłady API REST i klienta Python
- SDK Go dla Ollama - porównanie z przykładami