Skrót komend Ollama CLI: ls, serve, run, ps i inne (aktualizacja 2026)

Zaktualizowana lista poleceń Ollama – ls, ps, run, serve i inne

Page content

Ten ściągawka CLI Ollama skupia się na poleceniach, których używasz na co dzień (ollama ls, ollama serve, ollama run, ollama ps, zarządzanie modelami i typowe przepływy pracy), wraz z przykładami do kopiowania i wklejenia.

Zawiera również krótką sekcję „regulacji wydajności", która pomoże Ci odkryć (a następnie dogłębnie przeanalizować) OLLAMA_NUM_PARALLEL i powiązane ustawienia.

ollama cheatsheet

Ta ściągawka Ollama koncentruje się na poleceniach CLI, zarządzaniu modelami i dostosowywaniu, ale mamy tu również kilka wywołań curl.

Aby uzyskać pełny obraz tego, gdzie Ollama mieści się wśród opcji lokalnych, self-hosted i chmurowych — w tym vLLM, Docker Model Runner, LocalAI i dostawców chmury — zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej. Jeśli porównujesz różne rozwiązania do hostingu lokalnych LLM, sprawdź naszą wszechstronną porównawczą analizę Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla osób szukających alternatyw dla interfejsów wiersza polecenia, Docker Model Runner oferuje inne podejście do wdrażania LLM.

Instalacja Ollama (pobieranie i instalacja CLI)

  • Opcja 1: Pobieranie ze strony internetowej
    • Odwiedź ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
  • Opcja 2: Instalacja przez wiersz polecenia
    • Dla użytkowników Mac i Linux użyj polecenia:
curl -fsSL https://ollama.com/install.sh | sh
  • Postępuj zgodnie z instrukcjami na ekranie i podaj hasło, jeśli zostaniesz o to poproszony.

Wymagania systemowe Ollama (RAM, pamięć, procesor)

W przypadku poważnych obciążeń AI możesz chcieć porównać opcje sprzętowe. Przeprowadziliśmy testy wydajności NVIDIA DGX Spark vs Mac Studio vs RTX-4080 z Ollama, a jeśli rozważasz inwestycję w sprzęt wysokiej klasy, nasza porównawcza analiza cen i możliwości DGX Spark dostarcza szczegółowej analizy kosztów.

Podstawowe polecenia CLI Ollama

Polecenie Opis
ollama serve Uruchamia serwer Ollama (domyślny port 11434).
ollama run <model> Uruchamia określony model w interaktywnym trybie REPL.
ollama pull <model> Pobiera określony model do Twojego systemu.
ollama push <model> Wysyła model do rejestru Ollama.
ollama list Wyświetla listę wszystkich pobranych modeli. To samo co ollama ls.
ollama ps Pokazuje obecnie uruchomione (załadowane) modele.
ollama stop <model> Zatrzymuje (odładowuje) uruchomiony model.
ollama rm <model> Usuwa model z Twojego systemu.
ollama cp <źródło> <cel> Kopiuje model pod nową nazwą lokalnie.
ollama show <model> Wyświetla szczegóły modelu (architektura, parametry, szablon itp.).
ollama create <model> Tworzy nowy model na podstawie pliku Modelfile.
ollama launch [integracja] Konfiguracja zerowa uruchomienia asystentów kodowania AI (Claude Code, Codex, Droid, OpenCode).
ollama signin Autoryzacja w rejestrze Ollama (umożliwia korzystanie z prywatnych modeli i modeli chmurowych).
ollama signout Wylogowanie z rejestru Ollama.
ollama help Dostarcza pomocy dotyczące dowolnego polecenia.

Skrócone linki: Polecenie Ollama serve · Polecenie Ollama launch · Polecenie Ollama run · Flagi polecenia Ollama run · Polecenie Ollama ps · Polecenie Ollama show · Ollama signin · Podstawy CLI Ollama · Regulacje wydajności (OLLAMA_NUM_PARALLEL) · Głęboka analiza żądań równoległych

CLI Ollama (co to jest)

CLI Ollama to interfejs wiersza polecenia do zarządzania modelami i ich uruchamiania/obsługi lokalnie. Większość przepływów pracy sprowadza się do:

  • Uruchomienie serwera: ollama serve
  • Uruchomienie modelu: ollama run <model>
  • Sprawdzenie, co jest załadowane/uruchomione: ollama ps
  • Zarządzanie modelami: ollama pull, ollama list, ollama rm

Zarządzanie modelami Ollama: polecenia pull i list

Lista modeli:

ollama list

to samo co:

ollama ls

To polecenie wyświetla wszystkie modele pobrane do Twojego systemu wraz z ich rozmiarami plików na dysku HDD/SSD, np.:

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Pobieranie modelu: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

To polecenie pobiera określony model (np. Gemma 2B lub mistral-nemo:12b-instruct-2407-q6_K) do Twojego systemu. Pliki modelu mogą być bardzo duże, więc śledź miejsce zajęte przez modele na dysku twardym lub SSD. Możesz nawet chcieć przenieść wszystkie modele Ollama z katalogu domowego na większy i lepszy dysk

Wysyłanie modelu: ollama push

ollama push my-custom-model

Wysyła lokalny model do rejestru Ollama, aby inni mogli go pobrać. Najpierw musisz się zalogować (ollama signin), a nazwa modelu musi mieć prefix Twojej nazwy użytkownika Ollama, np. myuser/my-model. Użyj --insecure, jeśli wysyłasz do prywatnego rejestru przez HTTP:

ollama push myuser/my-model --insecure

Kopiowanie modelu: ollama cp

ollama cp llama3.2 my-llama3-variant

Tworzy lokalną kopię modelu pod nową nazwą bez ponownego pobierania niczego. To przydatne przed edycją pliku Modelfile — najpierw skopiuj, dostosuj kopię i zachowaj oryginał nienaruszony:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Polecenie Ollama show

ollama show drukuje informacje o pobranym modelu.

ollama show qwen3:14b

Domyślnie drukuje kartę modelu (architektura, długość kontekstu, długość osadzania, kwantyzacja itp.). Istnieją trzy przydatne flagi:

Flag Co pokazuje
--modelfile Pełny plik Modelfile użyty do stworzenia modelu (linie FROM, SYSTEM, TEMPLATE, PARAMETER)
--parameters Tylko blok parametrów (np. num_ctx, temperature, tokeny stop)
--verbose Rozszerzone metadane, w tym kształty tensorów i liczniki warstw
# Zobacz dokładnie, z jakim systemowym promptem i szablonem został zbudowany model
ollama show deepseek-r1:8b --modelfile

# Sprawdź wielkość okna kontekstowego i inne parametry wnioskowania
ollama show qwen3:14b --parameters

# Pełne szczegóły na poziomie tensorów (przydatne przy debugowaniu kwantyzacji)
ollama show llama3.2 --verbose

Wyjście --modelfile jest szczególnie przydatne przed dostosowaniem modelu: możesz skopiować podstawowy plik Modelfile i edytować go zamiast pisać od zera.

Polecenie Ollama serve

ollama serve uruchamia lokalny serwer Ollama (domyślny port HTTP 11434).

ollama serve

Polecenie “ollama serve” (przyjazny dla systemd przykład):

# ustaw zmienne środowiskowe, a następnie uruchom serwer
# udostępnij ollama na adresie IP hosta
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Polecenie Ollama run

Uruchomienie modelu:

ollama run gpt-oss:20b

To polecenie uruchamia określony model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej o tym, jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.

ollama run uruchamia model w sesji interaktywnej, więc w przypadku gpt-oss:120b zobaczysz coś w stylu:

$ ollama run gpt-oss:120b
>>> Wyślij wiadomość (/? dla pomocy)

możesz wpisać swoje pytania lub polecenia, a model odpowie.

>>> kim jesteś?
Thinking...
Użytkownik pyta "kim jesteś?" Proste pytanie. Należy odpowiedzieć jako ChatGPT, model językowy AI, wytrenowany przez OpenAI, 
itd. Dostarcz krótkie wprowadzenie. Prawdopodobnie zapytaj, czy potrzebują pomocy.
...done thinking.

Jestem ChatGPT, modelem językowym AI stworzonym przez OpenAI. zostałem przeszkolony na szerokim zakresie tekstów, więc mogę pomóc 
odpowiadać na pytania, wymyślać pomysły, wyjaśniać koncepcje, tworzyć szkice pisma, rozwiązywać problemy i wiele więcej. Traktuj 
mnie jako wszechstronnego wirtualnego asystenta — tu, aby dostarczać informacje, wsparcie i rozmowy, kiedykolwiek ich potrzebujesz. Jak mogę Ci dzisiaj pomóc?

>>> Wyślij wiadomość (/? dla pomocy)

Aby wyjść z interaktywnej sesji ollama, naciśnij Ctrl+D lub wpisz /bye, efekt będzie taki sam:

>>> /bye
$ 

Przykłady polecenia Ollama run

Aby uruchomić model i zadać pojedyncze pytanie w nieinteraktywnym trybie:

printf "Daj mi 10 jednostronicowych poleceń bash do analizy logów.\n" | ollama run llama3.2

Jeśli chcesz zobaczyć szczegółową, wyczerpującą odpowiedź LLM w sesji ollama - uruchom model z parametrem --verbose lub -v:

$ ollama run gpt-oss:20b --verbose
>>> kim jesteś?
Thinking...
Musimy odpowiedzieć na proste pytanie: "kim jesteś?" Użytkownik pyta "kim jesteś?" Możemy odpowiedzieć, że 
jesteśmy ChatGPT, dużym modelem językowym przeszkolonym przez OpenAI. Możemy również wspomnieć o możliwościach. Użytkownik prawdopodobnie oczekuje 
krótkiego wprowadzenia. Zachowamy przyjazny ton.
...done thinking.

Jestem ChatGPT, dużym modelem językowym stworzonym przez OpenAI. Jestem tutaj, aby pomóc odpowiadać na pytania, oferować wyjaśnienia, 
wymyślać pomysły i rozmawiać o szerokiej gamie tematów — od nauki i historii po kreatywne pisanie 
i codzienne porady. Daj mi znać, o czym chciałbyś porozmawiać!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$ 

Tak, to prawda, to jest 139 tokenów na sekundę. Model gpt-oss:20b jest bardzo szybki. Jeśli Ty, tak jak ja, masz GPU z 16 GB VRAM - zobacz szczegóły porównania prędkości LLM w Najlepsze LLM dla Ollama na GPU 16GB VRAM.

Wskazówka: Jeśli chcesz, aby model był dostępny przez HTTP dla wielu aplikacji, uruchom serwer z ollama serve i użyj klienta API zamiast długich sesji interaktywnych.

Flagi polecenia Ollama run (pełne odniesienie)

Flag Opis
--verbose / -v Wydrukuj statystyki czasowe (tokeny/s, czas ładowania itp.) po każdej odpowiedzi
-p, --parameters Przekazuj parametry modelu w linii bez pliku Modelfile (zobacz poniżej)
--format string Wymuś konkretny format wyjścia, np. json
--nowordwrap Wyłącz automatowe zawijanie słów — przydatne przy przekierowywaniu wyjścia do skryptów
--insecure Pozwól na połączenie z rejestrą przez HTTP (dla prywatnych/self-hosted rejestrów)

Nadszywanie parametrów modelu bez pliku Modelfile (-p / –parameters)

Flaga -p pozwala zmieniać parametry wnioskowania w czasie wykonywania bez tworzenia pliku Modelfile. Możesz stosować wiele flag -p:

# Zwiększ okno kontekstowe i obniż temperaturę
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Uruchom zadanie kodowania z deterministycznym wyjściem
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Częste parametry, które można ustawić w ten sposób:

Parametr Efekt
num_ctx Rozmiar okna kontekstowego w tokenach (domyślnie zależy od modelu, często 2048–4096)
temperature Losowość: 0 = deterministyczny, 1 = kreatywny
top_p Próg próbkowania jądra
top_k Ogranicza słownictwo do najlepszych K tokenów
num_predict Maksymalna liczba generowanych tokenów (-1 = nieograniczona)
repeat_penalty Kary za powtarzanie tokenów

Wprowadzanie wielolinijkowe w REPL

Otocz tekst potrójnymi cudzysłowami ("""), aby wprowadzić wielolinijkowy prompt bez wczesnego wysyłania:

>>> """Podsumuj to w jednym zdaniu:
... Szybki brązowy lis przeskakuje przez leniwego psa.
... Stało się to we wtorek.
... """

Modele multimodalne (obrazy)

Dla modeli zdolnych do widzenia (np. gemma3, llava), przekazy ścieżkę do obrazu bezpośrednio w prompcie:

ollama run gemma3 "Co jest na tym obrazie? /home/user/screenshot.png"

Generowanie osadzeń (embeddings) przez CLI

Modele osadzania zwracają tablicę JSON zamiast tekstu. Przekieruj tekst bezpośrednio dla szybkich, jednorazowych osadzeń:

echo "Hello world" | ollama run nomic-embed-text

Dla obciążeń produkcyjnych dotyczących osadzeń użyj punktu końcowego REST /api/embeddings lub klienta Python.

Wymuszanie wyjścia JSON (–format)

ollama run llama3.2 --format json "Wypisz 5 stolic jako JSON"

Model jest instruowany do zwrócenia poprawnego JSON. Przydatne przy przekierowywaniu wyjścia do jq lub skryptu oczekującego strukturalnych danych.

Polecenie Ollama stop

To polecenie zatrzymuje określony uruchomiony model.

ollama stop llama3.1:8b-instruct-q8_0

Ollama wyrzuca modele automagicznie po pewnym czasie. Możesz określić ten czas, domyślnie jest to 4 minuty. Jeśli nie chcesz czekać do upływu pozostałego czasu, możesz chcieć użyć tego polecenia ollama stop. Możesz również wyrzucić model z VRAM, wywołując punkt końcowy API /generate z parametrem keep_alive=0, zobacz poniżej opis i przykład.

Polecenie Ollama ps

ollama ps pokazuje obecnie uruchomione modele i sesje (przydatne do debugowania „dlaczego moja VRAM jest pełna?").

ollama ps

Przykład wyjścia ollama ps jest poniżej:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

Widzisz tutaj na moim PC, że gpt-oss:20b mieści się bardzo dobrze w 16 GB VRAM mojego GPU, i zajmuje tylko 14 GB.

Jeśli wykonam ollama run gpt-oss:120b, a następnie wywołam ollama ps, wynik nie będzie tak jasny: 78% warstw jest na CPU, i to tylko z oknem kontekstowym 4096 tokenów. Będzie więcej, jeśli będę potrzebował zwiększyć kontekst.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Polecenie Ollama launch (integracje AI do kodowania)

ollama launch to polecenie wprowadzone w Ollama v0.15 (styczeń 2026), które zapewnia konfigurację zerową, jednostronicową instalację dla popularnych asystentów kodowania AI działających przeciwko Twojemu lokalnemu serwerowi Ollama.

Dlaczego używać ollama launch?

Przed ollama launch, podpięcie agenta kodowania, takiego jak Claude Code lub Codex, do lokalnego backendu Ollama oznaczało ręczne ustawianie zmiennych środowiskowych, wskazywanie narzędzia do odpowiedniego punktu końcowego API i wybieranie kompatybilnego modelu. ollama launch zajmuje się tym wszystkim dla Ciebie interaktywnie.

Jeśli już uruchamiasz Ollama lokalnie i chcesz asystenta kodowania agentowego bez płacenia za wywołania API lub wysyłania kodu do chmury, ollama launch jest najszybszą ścieżką.

Wspierane integracje

Integracja Co to jest
claude Asystent kodowania Claude Code firmy Anthropic
codex Asystent kodowania Codex firmy OpenAI
droid Asystent kodowania AI firmy Factory
opencode Asystent kodowania open-source

Podstawowe użycie

# Interaktywny wybór — wybierz integrację z menu
ollama launch

# Uruchom konkretną integrację bezpośrednio
ollama launch claude

# Uruchom z konkretnym modelem
ollama launch claude --model qwen3-coder

# Skonfiguruj integrację bez uruchamiania (przydatne do inspekcji ustawień)
ollama launch droid --config

Polecane modele

Agenci kodowania potrzebują długiego okna kontekstowego, aby przechowywać kontekst całego pliku i historię rozmów wieloturnowych. Ollama zaleca modele z co najmniej 64 000 tokenami kontekstu:

Model Uwagi
qwen3-coder Silna wydajność kodowania, długi kontekst, działa lokalnie
glm-4.7-flash Szybka opcja lokalna
devstral:24b Model skupiony na kodowaniu od Mistral

Jeśli Twoje GPU nie mieści modelu, Ollama oferuje również warianty hostowane w chmurze (np. qwen3-coder:480b-cloud), które integrują się w ten sam sposób, ale kierują wnioskowanie do warstwy chmurowej Ollama — wymagając ollama signin.

Przykład: uruchamianie Claude Code lokalnie z Ollama

# 1. Upewnij się, że model jest dostępny
ollama pull qwen3-coder

# 2. Uruchom Claude Code przeciwko niemu
ollama launch claude --model qwen3-coder

Ollama ustawia niezbędne zmienne środowiskowe i uruchamia Claude Code wskazując na http://localhost:11434 automatycznie. Możesz następnie używać Claude Code dokładnie tak, jak normalnie — jedyną różnicą jest to, że wnioskowanie dzieje się na Twoim własnym sprzęcie.

Regulacje wydajności (OLLAMA_NUM_PARALLEL)

Jeśli widzisz kolejkowanie lub przekroczenia czasu oczekiwania pod obciążeniem, pierwszą regulacją do nauki jest OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = ile żądań Ollama wykonuje równolegle.
  • Wyższa wartość może zwiększyć przepustowość, ale może zwiększyć presję na VRAM i skoki opóźnień.

Szybki przykład:

OLLAMA_NUM_PARALLEL=2 ollama serve

Dla pełnego wyjaśnienia (w tym strategii strojenia i trybów awarii), zobacz:

Zwalnianie modelu Ollama z VRAM (keep_alive)

Kiedy model jest załadowany do VRAM (pamięć GPU), pozostaje tam nawet po zakończeniu jego używania. Aby jawnie zwolnić model z VRAM i uwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.

  • Zwolnij model z VRAM używając curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Zastąp MODELNAME swoją rzeczywistą nazwą modelu, na przykład:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Zwolnij model z VRAM używając Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

To jest szczególnie przydatne, gdy:

  • Potrzebujesz uwolnić pamięć GPU dla innych aplikacji
  • Uruchamiasz wiele modeli i chcesz zarządzać użytkowaniem VRAM
  • Zakończyłeś używanie dużego modelu i chcesz natychmiast zwolnić zasoby

Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany w pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiast odładowuje model z VRAM.

Jeśli wolisz całkowicie unikać warstwy abstrakcji Ollama i chcesz bezpośredniej kontroli nad tym, który model GGUF jest rezydentny w dowolnym momencie, tryb routera llama-server obejmuje podejście native dla llama.cpp do dynamicznego przełączania modeli.

Dostosowywanie modeli Ollama (system prompt, Modelfile)

  • Ustaw System Prompt: Wewnątrz REPL Ollama możesz ustawić system prompt, aby dostosować zachowanie modelu:

    >>> /set system Dla wszystkich pytań odpowiadaj w prostym języku angielskim, unikając żargonu technicznego tak bardzo, jak to możliwe
    >>> /save ipe
    >>> /bye
    

    Następnie uruchom dostosowany model:

    ollama run ipe
    

    To ustawia system prompt i zapisuje model do przyszłego użycia.

  • Stwórz plik niestandardowego modelu: Stwórz plik tekstowy (np. custom_model.txt) z następującą strukturą:

    FROM llama3.1
    SYSTEM [Twoje niestandardowe instrukcje tutaj]
    

    Następnie uruchom:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    To tworzy dostosowany model na podstawie instrukcji w pliku".

Ollama signin i signout (autoryzacja rejestru)

ollama signin
ollama signout

ollama signin autentyfikuje Twoją lokalną instalację Ollama z rejestrą Ollama na ollama.com. Po zalogowaniu klient przechowuje poświadczenia lokalnie i automatycznie je ponownie używa dla kolejnych poleceń.

Cosignin odblokowuje:

  • Pobieranie i wysyłanie prywatnych modeli z Twojego konta lub organizacji.
  • Używanie modeli hostowanych w chmurze (np. qwen3-coder:480b-cloud), które są zbyt duże, aby działać lokalnie.
  • Publikowanie modeli do rejestru z ollama push.

Alternatywa: autoryzacja kluczem API

Jeśli uruchamiasz Ollama w potoku CI lub na serwerze bezheadless, gdzie interaktywne ollama signin nie jest praktyczne, stwórz klucz API w ustawieniach konta Ollama i wystaw go jako zmienną środowiskową:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Zmienna OLLAMA_API_KEY jest automatycznie podchwycona przez każde polecenie Ollama i żądanie API — nie ma potrzeby uruchamiania ollama signin na każdej maszynie.

Używanie polecenia Ollama run z plikami (podsumowanie, przekierowanie)

  • Podsumowanie tekstu z pliku:

    ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txt
    

    To polecenie podsumowuje zawartość pliku input.txt używając określonego modelu.

  • Zapisywanie odpowiedzi modelu do pliku:

    ollama run llama3.2 "Powiedz mi o energii odnawialnej." > output.txt
    

    To polecenie zapisuje odpowiedź modelu do pliku output.txt.

Przypadki użycia CLI Ollama (generowanie tekstu, analiza)

  • Generowanie tekstu:

    • Podsumowanie dużego pliku tekstowego:
      ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt
      
    • Generowanie treści:
      ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w opiece zdrowotnej." > article.txt
      
    • Odpowiadanie na konkretne pytania:
      ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną na opiekę zdrowotną?"
      

    .

  • Przetwarzanie i analiza danych:

    • Klasyfikacja tekstu jako pozytywny, negatywny lub neutralny sentyment:
      ollama run llama3.2 "Przeanalizuj sentyment tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była powolna.'"
      
    • Kategoryzacja tekstu do zdefiniowanych wcześniej kategorii: Użyj podobnych poleceń do klasyfikacji lub kategoryzacji tekstu na podstawie zdefiniowanych kryteriów.

Używanie Ollama z Pythonem (klient i API)

  • Instalacja biblioteki Python Ollama:
    pip install ollama
    
  • Generowanie tekstu używając Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='co to jest qubit?')
    print(response['response'])
    
    Ten fragment kodu generuje tekst używając określonego modelu i promptu.

Dla zaawansowanej integracji Python, odkryj używanie API wyszukiwania webowego Ollama w Python, które obejmuje możliwości wyszukiwania webowego, wywoływania narzędzi i integrację z serwerami MCP. Jeśli budujesz aplikacje zasilane AI, nasze porównanie asystentów kodowania AI może pomóc Ci wybrać odpowiednie narzędzia do rozwoju.

Szukasz interfejsu opartego na sieci? Open WebUI dostarcza self-hosted interfejs z możliwościami RAG i obsługą wielu użytkowników. Dla wdrożeń produkcyjnych o wysokiej wydajności, rozważ vLLM jako alternatywę. Aby porównać Ollama z innymi lokalnymi i chmurowymi wyborami infrastruktury LLM, zobacz LLM Hosting: Porównanie infrastruktury lokalnej, self-hosted i chmurowej.

Przydatne linki

Konfiguracja i zarządzanie

Alternatywy i porównania

Wydajność i sprzęt

Integracja i rozwój

Subskrybuj

Otrzymuj nowe wpisy o systemach, infrastrukturze i inżynierii AI.