LLM

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Большие языковые модели (LLM) мощные, но в производстве мы редко хотим свободноформатных абзацев. Вместо этого нам нужны предсказуемые данные: атрибуты, факты или структурированные объекты, которые можно передать в приложение. Это Структурированный вывод LLM.

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Ollama быстро стал одним из самых популярных инструментов для запуска локальных моделей большого языка (LLM). Его простой интерфейс командной строки и упрощенное управление моделями сделали его предпочтительным вариантом для разработчиков, которые хотят работать с моделями ИИ вне облака.

Интерфейсы чатов для локальных экземпляров Ollama

Локально размещённый Ollama позволяет запускать большие языковые модели на вашем собственном устройстве, но использование его через командную строку не очень удобно. Вот несколько открытых проектов, которые предоставляют интерфейсы в стиле ChatGPT, подключающиеся к локальному Ollama.

NVIDIA DGX Spark - новый мини-суперкомпьютер для ИИ

Nvidia готовится к выпуску NVIDIA DGX Spark - небольшого суперкомпьютера для ИИ на архитектуре Blackwell с 128+ ГБ объединённой оперативной памяти и производительностью 1 ПФЛОПС в области ИИ. Отличное устройство для запуска больших языковых моделей.

Протокол контекста модели (MCP) и заметки о реализации сервера MCP на Go

Здесь представлено описание Протокола Контекста Модели (MCP), краткие заметки о том, как реализовать MCP сервер на Go, включая структуру сообщений и спецификации протокола.

Переранжирование документов с использованием Ollama и модели Qwen3 Reranker - на языке Go

Поскольку стандартный Ollama не имеет прямого API для переупорядочивания, вам нужно реализовать переупорядочивание с использованием Qwen3 Reranker на GO, генерируя векторы представлений для пар запрос-документ и оценивая их.

Сравнение качества перевода страниц Hugo с использованием языковых моделей на Ollama

В этом тесте я сравниваю, как разные ЛЛМ, размещенные на Ollama, переводят страницы Hugo на английском языке на немецкий.

Переранжирование текстов с использованием Ollama и Qwen3 Embedding LLM на языке Go

Этот маленький
Пример кода на Go для reranking вызывает Ollama для генерации вложений
для запроса и для каждого кандидата документа,
затем сортирует по убыванию косинусной схожести.

Модели Qwen3 Embedding & Reranker в Ollama: передовые достижения в производительности

Модели Qwen3 Embedding и Reranker являются последними выпусками в семействе Qwen, специально разработанными для продвинутых задач встраивания текста, извлечения и повторного ранжирования.

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Как количество PCIe-полос влияет на производительность LLM? Зависит от задачи. Для обучения и многопроцессорной инференции - значительное падение производительности.

Конвертируйте содержимое HTML в Markdown с использованием LLM и Ollama

В библиотеке моделей Ollama есть модели, способные конвертировать HTML-контент в Markdown, что полезно для задач преобразования контента. Это руководство является частью нашего Инструменты документации в 2026: Markdown, LaTeX, PDF и рабочие процессы печати хаба.

Поиск vs Глубокий поиск vs Глубокое исследование

Поиск лучше всего подходит для быстрого и прямого извлечения информации с использованием ключевых слов.
Глубокий поиск превосходит простой поиск, понимая контекст и намерение, обеспечивая более релевантные и комплексные результаты для сложных запросов.

Сравнение AI-ассистентов программирования

Список здесь некоторых инструментов для кодирования с помощью ИИ и AI Coding Assistants и их приятных сторон.

Использование языковых моделей не требует больших затрат, возможно, не потребуется покупать новый мощный GPU. Вот список провайдеров языковых моделей в облаке.

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)

Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Оллама Эншитификация: ранние признаки

Интерфейсы чатов для локальных экземпляров Ollama

NVIDIA DGX Spark - новый мини-суперкомпьютер для ИИ

Протокол контекста модели (MCP) и заметки о реализации сервера MCP на Go

Переранжирование документов с использованием Ollama и модели Qwen3 Reranker - на языке Go

Сравнение качества перевода страниц Hugo с использованием языковых моделей на Ollama

Переранжирование текстов с использованием Ollama и Qwen3 Embedding LLM на языке Go

Модели Qwen3 Embedding & Reranker в Ollama: передовые достижения в производительности

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Конвертируйте содержимое HTML в Markdown с использованием LLM и Ollama

Поиск vs Глубокий поиск vs Глубокое исследование

Сравнение AI-ассистентов программирования

Поставщики облачных LLM

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра