
Porównanie: Qwen3:30b vs GPT-OSS:20b
Porównanie prędkości, parametrów i wydajności tych dwóch modeli
Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości:
Porównanie prędkości, parametrów i wydajności tych dwóch modeli
Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości:
+ Konkretne Przykłady Używania Myślących LLMów
W tym wpisie omówimy dwa sposoby łączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona dla Ollama.
Nie bardzo przyjemne.
Modele GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, zwłaszcza gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.
Slightly different APIs require special approach. Slightly different APIs require special approach.
Oto porównanie wsparcia w formie obok siebie dla strukturalnego wyjścia (otrzymywanie niezawodnego JSON) wśród popularnych dostawców LLM, wraz z minimalnymi przykładami w Pythonie
Kilka sposobów na uzyskanie strukturalnego wyjścia z Ollama
Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.
Moje własne przetestowanie harmonogramowania modelu ollama ```
Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.
Moje zdanie na temat obecnego stanu rozwoju Ollama
Ollama szybko stało się jednym z najpopularniejszych narzędzi do lokalnego uruchamiania modeli językowych. Jego prosty interfejs CLI oraz zoptymalizowany zarządzanie modelami sprawiły, że stał się pierwszym wyborem dla programistów, którzy chcą pracować z modelami AI poza chmurą. Ale tak jak w przypadku wielu obiecujących platform, już teraz pojawiają się pierwsze oznaki Enshittification:
Szybki przegląd najbardziej znanych interfejsów użytkownika dla Ollama w 2025 roku
Lokalnie hostowany Ollama umożliwia uruchamianie dużych modeli językowych na własnym komputerze, ale korzystanie z niego przez wiersz poleceń nie jest przyjazne dla użytkownika. Oto kilka projektów open source, które oferują interfejsy stylu ChatGPT, łączące się z lokalnym Ollama.
W lipcu 2025 r. niedługo powinno zostać dostępne
NVIDIA wkrótce wyda NVIDIA DGX Spark – mały superkomputer AI oparty na architekturze Blackwell z 128+GB jednolitej pamięci RAM i wydajnością 1 PFLOPS w zakresie AI. Świetny sprzęt do uruchamiania LLM.
Długi artykuł o specyfikacjach i implementacji MCP w GO
Oto opis Protokołu Kontekstu Modelu (MCP), krótkie uwagi dotyczące sposobu implementacji serwera MCP w Go, w tym struktura wiadomości i specyfikacja protokołu.
Wdrażanie RAG? Oto kilka fragmentów kodu w Go - 2...
Ponieważ standardowy Ollama nie ma bezpośredniego interfejsu API do ponownego rangowania, musisz zaimplementować ponowne rangowanie przy użyciu Qwen3 Reranker w GO generując embeddingi dla par zapytań i dokumentów oraz oceniając je.
qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b
W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z angielskiego na niemiecki: porównanie, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo. Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały ładny markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.
Wdrażanie RAG? Oto kilka fragmentów kodu w Golang...
To ta mała przykładowa wersja kodu Go do rerankingu, która wywołuje Ollama w celu wygenerowania wektorów dla zapytania oraz dla każdego kandydującego dokumentu, następnie sortuje malejąco według podobieństwa kosinusowego.
Nowe, wspaniałe modele LLM dostępne w Ollama
Modele Qwen3 Embedding i Reranker to najnowsze wersje w rodzinie Qwen, specjalnie zaprojektowane do zaawansowanych zadań w zakresie wstawiania tekstu, wyszukiwania i ponownego rangowania.
Czy myślisz o zainstalowaniu drugiej karty graficznej dla modeli LLM?
Jak liczba linii PCIe wpływa na wydajność LLM? Zależy to od zadania. Dla treningu i inferencji wielo-GPU spadek wydajności jest znaczący.