LLM

Плагины OpenClaw — руководство по экосистеме и практические рекомендации

Плагины OpenClaw — руководство по экосистеме и практические рекомендации

Сначала плагины. Кратко об именовании навыков.

Эта статья посвящена плагинам OpenClaw — нативным пакетам шлюза, которые добавляют каналы, провайдеры моделей, инструменты, речевые функции, память, медиа, веб-поиск и другие возможности runtime.

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Самохостинг AI-поиска с локальными LLM

Vane — это один из наиболее прагматичных проектов в пространстве «поиска с использованием ИИ и цитированием»: самохостинговое средство ответов, которое сочетает в себе живой поиск в вебе с локальными или облачными LLM, сохраняя при этом полный контроль над всем стеком технологий.

Установка и настройка Claude Code для Ollama, llama.cpp, ценообразование

Установка и настройка Claude Code для Ollama, llama.cpp, ценообразование

Агентное программирование теперь с локальными бэкендами моделей.

Claude Code — это не автодополнение с лучшим маркетингом. Это агентский инструмент для разработки: он анализирует ваш код, редактирует файлы, выполняет команды и интегрируется с инструментами разработки.

Hermes AI Assistant — установка, настройка, рабочая среда и устранение неполадок

Hermes AI Assistant — установка, настройка, рабочая среда и устранение неполадок

Установка и быстрый старт агента Hermes для разработчиков

Hermes Agent — это автономный, не привязанный к конкретной модели AI-ассистент, который работает на локальном компьютере или недорогом VPS, взаимодействует через терминал и интерфейсы обмена сообщениями, а также совершенствуется со временем, превращая повторяющиеся задачи в переиспользуемые навыки.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Установите TGI, развертывайте быстро, отлаживайте ещё быстрее.

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Скорость генерации токенов llama.cpp на 16 ГБ видеопамяти (таблицы).

Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Доступ к Ollama удаленно без открытых публичных портов

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama-сервер с приоритетом композинга, поддержкой GPU и сохранением состояния.

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

HTTPS для Ollama без нарушения потоковой передачи ответов.

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Встраивания для RAG — Python, Ollama, API OpenAI.

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).