Karta cheat Ollama CLI: ls, serve, run, ps + polecenia (aktualizacja 2026)
Zaktualizowana lista poleceń Ollama - ls, ps, run, serve, itp.
Ten cheatsheet CLI Ollama skupia się na poleceniach, które używasz każdego dnia (ollama ls, ollama serve, ollama run, ollama ps, zarządzanie modelami i typowe przepływy pracy), z przykładami, które możesz skopiować i wkleić.
Zawiera także krótki „sekcję węzłów wydajności”, aby pomóc Ci odkryć (a następnie zrozumieć głębiej) OLLAMA_NUM_PARALLEL i powiązane ustawienia.

Ten cheatsheet Ollama skupia się na poleceniach CLI, zarządzaniu modelami i dostosowaniu, Ale tutaj również znajdziesz niektóre curl wywołania.
Aby uzyskać pełny obraz, gdzie Ollama mieści się wśród lokalnych, samowystarczalnych i chmurowych opcji — w tym vLLM, Docker Model Runner, LocalAI i dostawców chmurowych — zobacz Hosting LLM: Lokalne, Samowystarczalne & Porównanie Infrastruktury Chmurowej. Jeśli porównujesz różne lokalne rozwiązania hostingu LLM, sprawdź nasze kompletne porównanie Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla tych, którzy szukają alternatyw dla interfejsów CLI, Docker Model Runner oferuje inny sposób wdrażania LLM.
Instalacja Ollama (pobieranie i instalacja CLI)
- Opcja 1: Pobierz z witryny internetowej
- Odwiedź stronę ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
- Opcja 2: Zainstaluj przez wiersz poleceń
- Dla użytkowników Mac i Linux:
curl -fsSL https://ollama.com/install.sh | sh
- Postępuj zgodnie z instrukcjami na ekranie i wpisz swoje hasło, jeśli zostanie poproszony.
Wymagania systemowe Ollama (RAM, przechowywanie, CPU)
- System operacyjny: Mac, Linux lub Windows
- Pamięć (RAM): Minimum 8 GB, zalecane 16 GB lub więcej
- Przechowywanie: Co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być naprawdę duże, zobacz tutaj więcej Przeniesienie modeli Ollama na inny dysk )
- Procesor: Relatywnie nowy procesor (z ostatnich 5 lat). Jeśli jesteś ciekaw, jak Ollama wykorzystuje różne architektury procesorów, zobacz nasze analizy jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel.
Dla poważnych obciążeń AI możesz chcieć porównać opcje sprzętu. Przetestowaliśmy NVIDIA DGX Spark vs Mac Studio vs RTX-4080 wydajność z Ollama, a jeśli rozważasz inwestycję w wysokiej klasy sprzęty, nasze ceny i porównanie możliwości DGX Spark oferuje szczegółową analizę kosztów.
Podstawowe polecenia CLI Ollama
| Polecenie | Opis |
|---|---|
ollama serve |
Uruchamia serwer Ollama (domyślny port 11434). |
ollama run <model> |
Uruchamia wskazany model w interaktywnym REPL. |
ollama pull <model> |
Pobiera wskazany model na Twój system. |
ollama push <model> |
Przesyła model do rejestru Ollama. |
ollama list |
Wyświetla wszystkie pobrane modele. To samo co ollama ls. |
ollama ps |
Pokazuje obecnie uruchomione (załadowane) modele. |
ollama stop <model> |
Zatrzymuje (odzyskuje) uruchomiony model. |
ollama rm <model> |
Usuwa model z Twojego systemu. |
ollama cp <source> <dest> |
Kopiuje model pod nową nazwą lokalnie. |
ollama show <model> |
Wyświetla szczegóły dotyczące modelu (architektura, parametry, szablon itp.). |
ollama create <model> |
Tworzy nowy model z pliku Modelfile. |
ollama launch [integration] |
Zero-konfiguracyjne uruchomienie asystentów kodowania AI (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Uwierzytelnia się w rejestrze Ollama (włącza prywatne modele i modele w chmurze). |
ollama signout |
Wylogowuje się z rejestru Ollama. |
ollama help |
Udostępnia pomoc dotyczącą każdego polecenia. |
Skoki do sekcji: polecenie ollama serve · polecenie ollama launch (integracje AI kodowania) · polecenie ollama run · flagi polecenia ollama run · polecenie ollama ps · polecenie ollama show · ollama signin · podstawowe polecenia CLI Ollama · węzły wydajności (OLLAMA_NUM_PARALLEL) · głębokie zanurzenie w żądaniach równoległych
CLI Ollama (co to jest)
CLI Ollama to interfejs wiersza poleceń do zarządzania modelami i uruchamiania/wdrażania ich lokalnie. Większość przepływów pracy sprowadza się do:
- Uruchom serwer:
ollama serve - Uruchom model:
ollama run <model> - Zobacz, co jest załadowane/uruchomione:
ollama ps - Zarządzaj modelami:
ollama pull,ollama list,ollama rm
Zarządzanie modelami Ollama: polecenia pull i list
Lista modeli:
ollama list
To samo co:
ollama ls
To polecenie wyświetla wszystkie modele pobrane na Twój system, wraz z ich rozmiarami na Twoim dysku SSD/HDD, np.
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 tygodnie temu
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 tygodnie temu
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 tygodnie temu
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 tygodnie temu
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 tygodnie temu
qwen3:8b 500a1f067a9f 5.2 GB 5 tygodnie temu
qwen3:14b bdbd181c33f2 9.3 GB 5 tygodnie temu
qwen3:30b-a3b 0b28110b7a33 18 GB 5 tygodnie temu
devstral:24b c4b2fa0c33d7 14 GB 5 tygodnie temu
Pobierz model: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
To polecenie pobiera wskazany model (np. Gemma 2B lub mistral-nemo:12b-instruct-2407-q6_K) na Twój system. Pliki modelu mogą być bardzo duże, więc śledź miejsce zajmowane przez modele na dysku twardym, lub SSD. Możesz nawet chcieć przenieść wszystkie modele Ollama z Twojej domyślnej ścieżki do innego większego i lepszego dysku
Przesyłanie modelu: ollama push
ollama push my-custom-model
Przesyła lokalny model do rejestru Ollama, aby inni mogli go pobrać.
Najpierw musisz się zalogować (ollama signin) i nazwa modelu musi być z prefiksem Twojej nazwy użytkownika Ollama, np. myuser/my-model.
Użyj --insecure, jeśli przesyłasz do prywatnego rejestru przez HTTP:
ollama push myuser/my-model --insecure
Kopiowanie modelu: ollama cp
ollama cp llama3.2 my-llama3-variant
Tworzy lokalną kopię modelu pod nową nazwą bez ponownego pobierania niczego. To bardzo przydatne przed edytowaniem pliku Modelfile — najpierw skopiuj, dostosuj kopię, a oryginalny zostaje niezmieniony:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Polecenie ollama show
ollama show wypisuje informacje o pobranych modelach.
ollama show qwen3:14b
Domyślnie wypisuje kartę modelu (architektura, długość kontekstu, długość osadzenia, kwantyzacja itp.). Są trzy przydatne flagi:
| Flag | Co pokazuje |
|---|---|
--modelfile |
Pełny plik Modelfile używany do tworzenia modelu (wiersze FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Tylko blok parametrów (np. num_ctx, temperature, stop tokeny) |
--verbose |
Rozszerzona metadane w tym rozmiary tensorów i liczba warstw |
# Zobacz dokładnie, jaki systemowy monit i szablon został użyty do stworzenia modelu
ollama show deepseek-r1:8b --modelfile
# Sprawdź rozmiar okna kontekstu i inne parametry wnioskowania
ollama show qwen3:14b --parameters
# Pełne szczegóły na poziomie tensorów (przydatne przy debugowaniu kwantyzacji)
ollama show llama3.2 --verbose
Wyjście --modelfile jest szczególnie przydatne przed dostosowaniem modelu: możesz skopiować bazowy plik Modelfile i edytować od tego miejsca zamiast pisać od zera.
Polecenie ollama serve
ollama serve uruchamia lokalny serwer Ollama (domyślny port HTTP 11434).
ollama serve
“polecenie ollama serve” (przykład przyjazny dla systemd):
# ustaw zmienne środowiskowe, a następnie uruchom serwer
# zrób, aby Ollama był dostępny na adresie IP hosta
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Polecenie ollama run
Uruchom model:
ollama run gpt-oss:20b
To polecenie uruchamia wskazany model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej o jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.
ollama run uruchamia model w sesji interaktywnej,
więc w przypadku gpt-oss:120b zobaczysz coś takiego jak
$ ollama run gpt-oss:120b
>>> Wyślij wiadomość (/? dla pomocy)
możesz wpisać swoje pytania lub polecenia, a model odpowie.
>>> kim jesteś?
Myśli...
Użytkownik pyta "kim jesteś?" Proste pytanie. Należy odpowiedzieć jak ChatGPT, model językowy AI, wytrenowany przez OpenAI,
itd. Podaj krótki wprowadzenie. Prawdopodobnie zapytaj, czy potrzebujesz pomocy.
...zakończono myślenie.
Jestem ChatGPT, model językowy AI stworzony przez OpenAI. Zostałem wytrenowany na szerokim zakresie tekstu, więc mogę pomóc
odpowiedzieć na pytania, tworzyć pomysły, wyjaśniać pojęcia, tworzyć wypowiedzi, rozwiązywać problemy i wiele więcej. Myśl
o mnie jako o wszechstronnym asystentowi wirtualnym — tu, by dostarczyć informacje, wsparcie i rozmowę, kiedy tylko będzie potrzebne.
Jak mogę dziś pomóc?
>>> Wyślij wiadomość (/? dla pomocy)
Aby wyjść z interaktywnej sesji ollama, naciśnij Ctrl+D, lub możesz wpisać /bye, ten sam wynik:
>>> /bye
$
Przykłady polecenia ollama run
Aby uruchomić model i zadać pojedyncze pytanie w trybie niinteraktywnym:
printf "Daj mi 10 bash jednoliniowych poleceń do analizy logów.\n" | ollama run llama3.2
Jeśli chcesz zobaczyć szczegółowe wersje odpowiedzi LLM w sesji ollama — uruchom model z --verbose lub -v parametrem:
$ ollama run gpt-oss:20b --verbose
>>> kim jesteś?
Myśli...
Musimy odpowiedzieć na proste pytanie: "kim jesteś?" Użytkownik pyta "kim jesteś?" Możemy odpowiedzieć, że jesteśmy ChatGPT, duży model językowy wytrenowany przez OpenAI. Możemy również wymienić możliwości. Użytkownik prawdopodobnie oczekuje krótkiego wprowadzenia. Zostawimy to przyjazne.
...zakończono myślenie.
Jestem ChatGPT, duży model językowy stworzony przez OpenAI. Jestem tu, by pomóc odpowiadać na pytania, oferować wyjaśnienia,
generować pomysły i rozmawiać na szeroki zakres tematów — od nauki i historii po pisownię kreatywną i codzienne porady. Po prostu powiedz mi, o czym chciałbyś rozmawiać!
łączny czas: 1,118585707s
czas ładowania: 106,690543ms
liczba tokenów oceny wstecznej: 71 token(ów)
czas oceny wstecznej: 30,507392ms
czas oceny wstecznej: 2327,30 tokenów/s
liczba tokenów oceny: 132 token(ów)
czas oceny: 945,801569ms
czas oceny: 139,56 tokenów/s
>>> /bye
$
Tak, to prawda, to 139 tokenów na sekundę. gpt-oss:20b jest bardzo szybki. Jeśli masz, jak ja, GPU z 16 GB VRAM - zobacz szczegóły porównania prędkości LLM w Najlepsze LLM dla Ollama na GPU z 16 GB VRAM.
Porada: Jeśli chcesz, aby model był dostępny przez HTTP dla wielu aplikacji, uruchom serwer za pomocą ollama serve i użyj klienta API zamiast długich sesji interaktywnych.
Pełny opis flag polecenia ollama run
| Flag | Opis |
|---|---|
--verbose / -v |
Wyświetla statystyki czasowe (tokeny/s, czas ładowania itp.) po każdej odpowiedzi |
-p, --parameters |
Przekazuje parametry modelu w linii poleceń bez pliku Modelfile (patrz poniżej) |
--format string |
Wymusza określony format wyjścia, np. json |
--nowordwrap |
Wyłącza automatyczne łamanie linii — przydatne, gdy przekazujesz wyjście do skryptów |
--insecure |
Pozwala na łączenie się z rejestrem przez HTTP (dla prywatnych/rejestru samowystarczalnych) |
Nadpisanie parametrów modelu bez pliku Modelfile (-p / –parameters)
Flaga -p pozwala zmieniać parametry wnioskowania w czasie wykonywania bez tworzenia pliku Modelfile.
Możesz stosować wiele flag -p:
# Zwiększ rozmiar okna kontekstu i obniż temperaturę
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Uruchom zadanie kodowania z deterministycznym wynikiem
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Powszechne parametry, które możesz ustawić w ten sposób:
| Parametr | Efekt |
|---|---|
num_ctx |
Rozmiar okna kontekstu w tokenach (domyślnie zależny od modelu, często 2048–4096) |
temperature |
Losowość: 0 = deterministyczny, 1 = kreatywny |
top_p |
Próg próbkowania jądra |
top_k |
Ogranicza słownictwo do top-K tokenów |
num_predict |
Maksymalna liczba generowanych tokenów (-1 = nieograniczona) |
repeat_penalty |
Kara za powtarzające się tokeny |
Wprowadzanie wieloliniowy w REPL
Zawijaj tekst w trójpodwójne cudzysłowy ("\"\"\") aby wprowadzić wieloliniowy monit bez wcześniejszego wysyłania:
>>> """Podsumuj to w jednym zdaniu:
... Szybki brązowy lis skacze nad leniwym psem.
... Wystąpiło to w środę.
... """
Modele wieloczuciowe (obrazy)
Dla modeli wizyjnych (np. gemma3, llava), przekaż ścieżkę obrazu bezpośrednio w monicie:
ollama run gemma3 "Co jest na tym obrazie? /home/user/screenshot.png"
Generowanie osadzeń przez CLI
Modele osadzeń wypisują tablicę JSON zamiast tekstu. Przekieruj tekst bezpośrednio dla szybkiego jednorazowego osadzenia:
echo "Witaj świecie" | ollama run nomic-embed-text
Dla produkcji osadzeń użyj REST endpoint /api/embeddings lub klienta Pythona zamiast CLI.
Wymuszenie wyjścia w formacie JSON (–format)
ollama run llama3.2 --format json "Wyświetl 5 stolic jako JSON"
Modelowi zostaje wskazane, aby zwrócić poprawny JSON. Przydatne, gdy przekierowujesz wyjście do jq lub skryptu oczekującego na dane strukturalne.
Polecenie ollama stop
To polecenie zatrzymuje wskazany uruchomiony model.
ollama stop llama3.1:8b-instruct-q8_0
Ollama automatycznie usuwa modele po pewnym czasie.
Możesz określić ten czas, domyślnie to 4 minuty.
Jeśli nie chcesz czekać na pozostały czas, możesz użyć tego polecenia ollama stop.
Możesz również wyrzucić model z VRAM, wywołując endpoint API /generate z parametrem keep_alive=0, patrz poniżej na opis i przykład.
Polecenie ollama ps
ollama ps pokazuje obecnie uruchomione modele i sesje (przydatne do debugowania „czemu moja VRAM jest pełna?”).
ollama ps
Przykład wyjścia ollama ps jest poniżej:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuty od teraz
Zobacz tutaj na moim komputerze, że gpt-oss:20b bardzo dobrze mieści się w moim GPU 16 GB VRAM i zajmuje tylko 14 GB.
Jeśli wykonam ollama run gpt-oss:120b i potem wywołam ollama ps, wynik nie będzie taki jasny:
78% warstw jest na CPU, a to jest tylko z kontekstem okna 4096 tokenów. Będzie gorzej, jeśli będę musiał zwiększyć kontekst.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuty od teraz
Polecenie ollama launch (integracje AI kodowania)
ollama launch to polecenie wprowadzone w Ollama v0.15 (styczeń 2026), które daje Ci zero-konfiguracyjne, jednoliniowe ustawienie popularnych asystentów kodowania AI działających przeciwko lokalnemu serwerowi Ollama.
Dlaczego używać ollama launch?
Przed ollama launch, podłączenie agenta kodowania, takiego jak Claude Code lub Codex, do lokalnego backendu Ollama wymagało ręcznego ustawiania zmiennych środowiskowych, wskazania narzędzia do odpowiedniego punktu końcowego API i wyboru kompatybilnego modelu. ollama launch obsługuje wszystko za Ciebie interaktywnie.
Jeśli już lokalnie uruchamiasz Ollama i chcesz agenty kodowania bez płacenia za wywołania API lub wysyłania kodu do chmury, ollama launch to najkrótsza droga tam.
Wspierane integracje
| Integracja | Co to jest |
|---|---|
claude |
Anthropic’s Claude Code — agenty kodowania |
codex |
OpenAI’s Codex CLI agenty kodowania |
droid |
Factory’s AI agent kodowania |
opencode |
Otwarty agent kodowania |
Podstawowe użycie
# Interaktywny wybór — wybierz integrację z menu
ollama launch
# Uruchom konkretną integrację bezpośrednio
ollama launch claude
# Uruchom z konkretnym modelem
ollama launch claude --model qwen3-coder
# Skonfiguruj integrację bez uruchamiania jej (przydatne do inspekcji ustawień)
ollama launch droid --config
Zalecane modele
Agenty kodowania potrzebują długiego okna kontekstu, aby przechowywać pełen kontekst pliku i historię konwersacji wielokrotnego przebiegu. Ollama zaleca modele z co najmniej 64 000 tokenów kontekstu:
| Model | Uwagi |
|---|---|
qwen3-coder |
Silna wydajność kodowania, długi kontekst, działa lokalnie |
glm-4.7-flash |
Szybka lokalna opcja |
devstral:24b |
Model kodowania skupiony na Mistralu |
Jeśli Twoje GPU nie może pomieścić modelu, Ollama oferuje również wersje hostowane w chmurze (np. qwen3-coder:480b-cloud), które integrują się w ten sam sposób, ale kierują wnioskowanie do warstwy chmurowej Ollama — wymagając ollama signin.
Przykład: uruchamianie Claude Code lokalnie z Ollama
# 1. Upewnij się, że model jest dostępny
ollama pull qwen3-coder
# 2. Uruchom Claude Code przeciwko niemu
ollama launch claude --model qwen3-coder
Ollama ustawia odpowiednie zmienne środowiskowe i automatycznie uruchamia Claude Code wskazując na http://localhost:11434.
Możesz wtedy używać Claude Code dokładnie tak, jak zwykle — jedyną różnicą jest to, że wnioskowanie odbywa się na Twoim własnym sprzęcie.
Węzły wydajności (OLLAMA_NUM_PARALLEL)
Jeśli widzisz kolejki lub timeouty pod obciążeniem, pierwszy węzeł do poznanie to OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= ile żądań Ollama wykonuje równolegle.- Wyższa wartość może zwiększyć przepustowość, ale może zwiększyć presję na VRAM i wstrząsy opóźnienia.
Szybki przykład:
OLLAMA_NUM_PARALLEL=2 ollama serve
Dla pełnej wersji (w tym strategie dostrajania i tryby awaryjne), zobacz:
Zwolnienie modelu Ollama z VRAM (keep_alive)
Kiedy model jest załadowany do VRAM (pamięć GPU), pozostaje tam nawet po zakończeniu jego użycia. Aby jawnie zwolnić model z VRAM i zwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.
- Zwolnienie modelu z VRAM za pomocą curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Zastąp MODELNAME rzeczywistą nazwą modelu, na przykład:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Zwolnienie modelu z VRAM za pomocą Pythona:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
To szczególnie przydatne, gdy:
- Potrzebujesz zwolnić pamięć GPU dla innych aplikacji
- Uruchamiasz wiele modeli i chcesz zarządzać użyciem VRAM
- Zakończyłeś korzystanie z dużego modelu i chcesz natychmiast zwolnić zasoby
Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany do pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiastowo odzyskuje model z VRAM.
Dostosowywanie modeli Ollama (monit systemowy, plik Modelfile)
-
Ustaw monit systemowy: Wewnątrz REPL Ollama możesz ustawić monit systemowy, aby dostosować zachowanie modelu:
>>> /set system Dla wszystkich pytań zadawanych odpowiadaj po prostu po polsku, unikając jak najwięcej technicznego żargonu >>> /save ipe >>> /byeNastępnie uruchom dostosowany model:
ollama run ipeTo ustawia monit systemowy i zapisuje model do przyszłego użycia.
-
Utwórz niestandardowy plik modelu: Utwórz plik tekstowy (np.
custom_model.txt) z poniższą strukturą:FROM llama3.1 SYSTEM [Twoje niestandardowe instrukcje tutaj]Następnie uruchom:
ollama create mymodel -f custom_model.txt ollama run mymodelTo tworzy dostosowany model na podstawie instrukcji w pliku.
Zalogowanie się i wylogowanie z Ollama (uwierzytelnienie rejestru)
ollama signin
ollama signout
ollama signin uwierzytelnia lokalną instalację Ollama z rejestrem Ollama na ollama.com. Po zalogowaniu klient lokalnie przechowuje poświadczenia i automatycznie ponownie je wykorzystuje dla kolejnych poleceń.
Co umożliwia zalogowanie się:
- Pobieranie i przesyłanie prywatnych modeli z Twojego konta lub organizacji.
- Używanie modeli hostowanych w chmurze (np.
qwen3-coder:480b-cloud), które są zbyt duże, aby działać lokalnie. - Publikowanie modeli w rejestrze za pomocą
ollama push.
Alternatywa: uwierzytelnienie za pomocą klucza API
Jeśli uruchamiasz Ollama w potoku CI lub serwerze bez interfejsu ollama signin, utwórz klucz API w ustawieniach swojego konta Ollama i eksponuj go jako zmienną środowiskową:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
Zmienna OLLAMA_API_KEY jest automatycznie pobierana przez każde polecenie Ollama i żądanie API — nie ma potrzeby uruchamiania ollama signin na każdym komputerze.
Użycie polecenia ollama run z plikami (podsumowanie, przekierowanie)
-
Podsumowanie tekstu z pliku:
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txtTo polecenie podsumowuje zawartość
input.txtza pomocą wskazanego modelu. -
Zapisywanie odpowiedzi modelu do pliku:
ollama run llama3.2 "Opowiedz mi o energii odnawialnej." > output.txtTo polecenie zapisuje odpowiedź modelu do
output.txt.
Użycie CLI Ollama (generowanie tekstu, analiza)
-
Generowanie tekstu:
- Podsumowanie dużego pliku tekstowego:
ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt - Generowanie treści:
ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w medycynie." > article.txt - Odpowiadanie na konkretne pytania:
ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną na medycynę?"
.
- Podsumowanie dużego pliku tekstowego:
-
Przetwarzanie danych i analiza:
- Klasyfikacja tekstu na pozytywny, negatywny lub neutralny:
ollama run llama3.2 "Analizuj sentyment tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była wolna.'" - Kategoryzacja tekstu na wcześniej zdefiniowane kategorie: Użyj podobnych poleceń, aby klasyfikować lub kategoryzować tekst na podstawie wcześniej zdefiniowanych kryteriów.
- Klasyfikacja tekstu na pozytywny, negatywny lub neutralny:
Użycie Ollama z Pythonem (klient i API)
- Zainstaluj bibliotekę Pythona Ollama:
pip install ollama - Generuj tekst za pomocą Pythona:
Ten fragment kodu generuje tekst za pomocą wskazanego modelu i monitu.
import ollama response = ollama.generate(model='gemma:2b', prompt='co to jest kubit?') print(response['response'])
Dla zaawansowanej integracji z Pythonem, eksploruj użycie API Web Search Ollama w Pythonie, który obejmuje możliwości wyszukiwania w sieci, wywoływanie narzędzi i integrację z serwerami MCP. Jeśli tworzysz aplikacje z AI, nasze porównanie asystentów kodowania AI mogą pomóc Ci wybrać odpowiednie narzędzia do rozwoju.
Szukasz interfejsu webowego? Otwórz WebUI oferuje samowystarczalny interfejs z możliwością RAG i wsparciem wielu użytkowników. Dla wysokiej wydajności wdrożeń produkcyjnych, rozważ vLLM jako alternatywę. Aby porównać Ollama z innymi lokalnymi i chmurowymi opcjami infrastruktury LLM, zobacz Hosting LLM: Lokalne, Samowystarczalne & Porównanie Infrastruktury Chmurowej.
Przydatne linki
Konfiguracja i zarządzanie
Alternatywy i porównania
- Lokalne hosting LLM: Kompletny przewodnik 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Wiecej
- Szybki start vLLM: Wysokiej wydajności serwowanie LLM
- Docker Model Runner vs Ollama: Którego wybrać?
- Pierwsze znaki enshittification Ollama
Wydajność i sprzęt
- Jak Ollama obsługuje żądania równoległe
- Jak Ollama korzysta z wydajności i efektywnych jąder procesora Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama
- DGX Spark vs. Mac Studio: Praktyczny, sprawdzony cenowo przegląd NVIDIA’s Personal AI Supercomputer
Integracja i rozwój
- Użycie natywnego API wyszukiwania Ollama w Pythonie
- Porównanie asystentów kodowania AI
- Open WebUI: Samowystarczalny interfejs LLM
- Otwarte interfejsy chatowe dla LLM na lokalnych instancjach Ollama
- Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go
- Integracja Ollama z Pythonem: Przykłady API REST i klienta Pythona
- SDK Go dla Ollama - porównanie z przykładami