AI - Rost Glukhov | 个人网站和技术博客

本地部署大型语言模型随着开发人员和组织寻求增强的隐私性、减少延迟和对AI基础设施的更大控制权，变得越来越流行。

随着人工智能和机器学习工作负载变得越来越复杂，对强大的编排系统的需求也变得更为迫切。Go语言的简洁性、性能和并发特性使其成为构建机器学习流水线的编排层的理想选择，即使模型本身是用Python编写的。

跨模态嵌入代表了人工智能领域的一项突破，它使不同数据类型能够在统一的表示空间中实现理解和推理。

人工智能的民主化已经到来。
借助像 Llama 3、Mixtral 和 Qwen 这样的开源大语言模型（LLM），团队现在可以使用消费级硬件构建强大的 AI 基础设施 - 在降低成本的同时，仍能完全控制数据隐私和部署。

检索增强生成（RAG）已经远远超越了简单的向量相似性搜索。 LongRAG、Self-RAG 和 GraphRAG 代表了这些能力的前沿。

Linux 已成为数据科学专业人士事实上的操作系统，提供无与伦比的灵活性、性能和丰富的工具生态系统。

FLUX.1-dev 是一款功能强大的文本到图像模型，能够生成令人惊叹的结果，但其24GB以上的内存需求使得在许多系统上运行变得具有挑战性。 FLUX.1-dev的GGUF量化版本提供了一种解决方案，将内存使用量减少约50%，同时保持出色的图像质量。

Black Forest Labs 已发布 FLUX.1-Kontext-dev，这是一款先进的图像到图像 AI 模型，它可以通过文本指令增强现有图像。

Docker Model Runner 是 Docker 官方用于本地运行 AI 模型的工具，但
在 Docker Model Runner 中启用 NVidia GPU 加速
需要特定的配置。

令牌优化是区分成本效益高的LLM应用与耗费预算的实验的关键技能。

我找到了一些关于GPT-OSS 120b在三个不同平台上运行的性能测试结果：NVIDIA DGX Spark、Mac Studio和RTX 4080。Ollama库中的GPT-OSS 120b模型大小为65GB，这意味着它无法装入RTX 4080（或更新的RTX 5080的16GB显存中。

模型上下文协议（MCP）正在革新AI助手与外部数据源和工具的交互方式。在本指南中，我们将探讨如何构建 MCP 服务器（Python），重点介绍网络搜索和爬取功能的示例。

Docker Model Runner (DMR) 是 Docker 官方用于本地运行 AI 模型的解决方案，于 2025 年 4 月推出。此快速参考提供了所有关键命令、配置和最佳实践的快速查阅。

在本地运行大型语言模型 (LLMs) 已成为隐私保护、成本控制和离线功能的重要趋势。 2025 年 4 月，Docker 推出了 Docker Model Runner (DMR)，这是其用于 AI 模型部署的官方解决方案，标志着该领域的重大转变。

人工智能的未来不仅仅是更聪明的模型，更是更聪明的硅芯片。
专为LLM推理设计的硬件正在引发一场革命，这与比特币挖矿转向ASICs的转变非常相似。

AI