LLM Performance

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 14 популярных LLMs на Ollama на RTX 4080.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

ASIC для больших языковых моделей и специализированные чипы для инференса (почему они важны)

Будущее ИИ заключается не только в более умных моделях. Речь также идет о кремнии, который соответствует тому, как эти модели действительно развертываются. Специализированное оборудование для [инференса LLM](https://www.glukhov.org/ru/llm-performance/hardware/llm-asics/ “Скорость инференса LLM на ASIC)” движется по пути, напоминающему эволюцию майнинга Биткойна от GPU к специально разработанным ASIC, но с более жесткими ограничениями, поскольку модели и схемы точности постоянно развиваются.

Вот сравнение между Qwen3:30b и GPT-OSS:20b, с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость.

Проблемы структурированного вывода в Ollama GPT-OSS

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Как количество PCIe-полос влияет на производительность LLM? Зависит от задачи. Для обучения и многопроцессорной инференции - значительное падение производительности.

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)

Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.

В разгар современных потрясений я сравниваю технические характеристики различных видеокарт, подходящих для задач ИИ (Deep Learning, Обнаружение объектов и LLMs). Однако все они невероятно дороги.

Как Ollama обрабатывает параллельные запросы

Когда сервер Ollama получает два запроса одновременно, его поведение зависит от конфигурации и доступных системных ресурсов.

Недавно был выпущен Mistral Small. Давайте посмотрим, как он справляется в сравнении с другими языковыми моделями (тестирование производительности Mistral Small).

Недавно мы увидели несколько новых языковых моделей, которые были выпущены. Возбуждающие времена. Давайте протестируем и посмотрим, как они работают при обнаружении логических ошибок.

Сравнение способностей LLM к суммированию

Исследование поведения моделей с разным количеством параметров и квантования.

Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.

LLM Performance

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

ASIC для больших языковых моделей и специализированные чипы для инференса (почему они важны)

Сравнение: Qwen3:30b против GPT-OSS:20b

Проблемы структурированного вывода в Ollama GPT-OSS

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

Сравнение подходящих GPU NVIDIA для ИИ

Как Ollama обрабатывает параллельные запросы

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi — тест LLM

Gemma2 против Qwen2 против Mistral Nemo против...

Сравнение способностей LLM к суммированию

Тест скорости работы крупных языковых моделей