LLM Performance

Testy wydajności LLM z 16 GB VRAM przy użyciu llama.cpp (prędkość i kontekst)

Porównuję tutaj prędkość działania kilku modeli LLM uruchamianych na GPU z 16 GB pamięci VRAM, wybierając najlepszy do samodzielnego hostowania.

Porównanie wydajności LLM na Ollama na GPU z 16 GB VRAM

Uruchamianie dużych modeli językowych lokalnie zapewnia prywatność, możliwość pracy offline oraz zero kosztów API.
Ten benchmark pokazuje dokładnie, co można się spodziewać od 14 popularnych
LLM na Ollama na RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

ASIC-y dla dużych modeli językowych i specjalizowane układy do inferencji (dlaczego są ważne)

Przyszłość AI to nie tylko mądrzejsze modele. To również półprzewodniki dostosowane do sposobu, w jaki te modele są faktycznie obsługiwane. Specjalistyczne układy sprzętowe do wnioskowania LLM podążają ścieżką przypominającą ewolucję kopalni Bitcoina od GPU do dedykowanych układów ASIC, choć z jeszcze bardziej surowymi ograniczeniami, ponieważ modele i metody precyzji ciągle się ewoluują.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Modely GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, szczególnie gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Wydajność modeli językowych i kanały PCIe: kluczowe zagadnienia

Jak liczba linii PCIe wpływa na wydajność LLM? W zależności od zadania. Dla treningu i inferencji wielo-GPU spadek wydajności jest znaczący.

Test: Jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel

Mam teorię do przetestowania – czy wykorzystanie Wszystkich rdzeni na procesorze Intel podniesie prędkość LLM? Zdenerwuje mnie fakt, że nowy model gemma3 27 bit (gemma3:27b, 17GB na ollama) nie mieści się w 16GB VRAM mojej karty graficznej, a częściowo działa na procesorze.

Porównanie odpowiedniości GPU NVidia do AI

Wśród burzy współczesnego świata tutaj porównuję specyfikacje techniczne różnych kart odpowiednich do zadań AI
(uczenia głębokiego,
wykrywania obiektów
i modeli językowych).
Są one jednak ogromnie drogie.

Gdy serwer Ollama otrzymuje dwa żądania jednocześnie, jego zachowanie zależy od konfiguracji i dostępnych zasobów systemowych.

Nieco wcześniej wydano. Przejdźmy do sprawy i
testuj jak Mistral Small radzi sobie w porównaniu do innych LLM.

Niedawno widzieliśmy kilka nowych LLM, które zostały wydane. Wspaniałe czasy. Zróbmy test i zobaczmy, jak działają, gdy wykrywają błędy logiczne.

Testowanie zachowania modeli o różnej liczbie parametrów i różnym stopniu kwantyzacji.

Porównanie prędkości przewidywania kilku wersji LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na CPU i GPU.

LLM Performance

Testy wydajności LLM z 16 GB VRAM przy użyciu llama.cpp (prędkość i kontekst)

Porównanie wydajności LLM na Ollama na GPU z 16 GB VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

ASIC-y dla dużych modeli językowych i specjalizowane układy do inferencji (dlaczego są ważne)

Porównanie: Qwen3:30b vs GPT-OSS:20b

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Wydajność modeli językowych i kanały PCIe: kluczowe zagadnienia

Test: Jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel

Porównanie odpowiedniości GPU NVidia do AI

Jak Ollama Obsługuje Wątki Równoległe

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Porównanie możliwości skracania LLM

Test prędkości modeli dużych języków