Ollama

在这里，我比较了新版本 Ollama 为模型分配的 VRAM 量与旧版本 Ollama 的情况。新版本表现更差。

Ollama 已经迅速成为在本地运行大型语言模型（LLMs）最受欢迎的工具之一。
其简单的命令行界面（CLI）和流畅的模型管理功能，使其成为希望在云之外使用 AI 模型的开发人员的首选。
但与许多有前景的平台一样，已经出现了 Enshittification 的迹象：

本地托管的 Ollama 允许你在自己的机器上运行大型语言模型，但通过命令行使用它并不友好。
以下是几个提供 ChatGPT风格界面 的开源项目，它们可以连接到本地的 Ollama。

由于标准 Ollama 没有直接的重排序 API，
您需要通过生成查询-文档对的嵌入向量并对其进行评分来实现使用 Qwen3 重排序器在 GO 中进行重排序。

我测试的三页内容涉及不同主题，其中包含一些结构良好的markdown内容：标题、列表、表格、链接等。

这个小的 Go代码示例重新排序调用Ollama生成嵌入用于查询和每个候选文档，然后按余弦相似度降序排序。

Qwen3 Embedding 和 Reranker 模型是 Qwen 系列的最新发布，专为高级文本嵌入、检索和重排序任务而设计。

这取决于具体任务。对于训练和多GPU推理，性能下降非常明显。

在 Ollama 模型库中，有一些模型可以将 HTML 内容转换为 Markdown，这对内容转换任务非常有用。

以下是一些AI辅助编码工具及其优点的列表。

机器人帮助编程

随着技术的发展，这些工具已经取得了显著的进步。 vibe 编程概念

我有一个理论要测试——如果利用所有Intel CPU核心是否能提高LLMs的速度？。
困扰我的是，新的gemma3 27位模型（gemma3:27b，17GB在ollama上）无法适应我GPU的16GB显存，部分运行在CPU上。

当 Ollama 服务器同时收到两个请求时，其行为取决于其配置和可用的系统资源。

DeepSeek’s 第一代推理模型，其性能可与 OpenAI-o1 相媲美，包括基于 Llama 和 Qwen 的 DeepSeek-R1 的六个密集模型。

以下是使用频率最高的 Ollama 命令列表和示例（[Ollama 命令速查表](https://www.glukhov.org/zh-cn/post/2024/12/ollama-cheatsheet/ “ollama 命令速查表)"），我之前整理过。
希望对你也有帮助（对你有用）。

不久之前发布了。让我们跟上进度并
测试Mistral Small与其他LLMs的性能表现。

Reranking 是检索增强生成 (RAG) 系统的第二步，位于检索和生成之间。

Ollama 新版本 v0.12.1 中的内存分配模型调度