Ollama

Executar grandes modelos de linguagem (LLMs) localmente tornou-se cada vez mais popular por motivos de privacidade, controle de custos e capacidades offline. O cenário mudou significativamente em abril de 2025, quando o Docker introduziu Docker Model Runner (DMR), sua solução oficial para implantação de modelos de IA.

Clientes Go para Ollama: comparação de SDK e exemplos com Qwen3/GPT-OSS

Este guia fornece uma visão abrangente dos disponíveis SDKs Go para Ollama e compara seus conjuntos de funcionalidades.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade.

Integrando o Ollama com Python: Exemplos de API REST e Cliente Python

Neste post, vamos explorar duas formas de conectar seu aplicativo Python ao Ollama: 1. Via HTTP REST API; 2. Via a biblioteca oficial do Ollama para Python.

Problemas de Saída Estruturada do Ollama GPT-OSS

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.

Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto de VRAM a nova versão do Ollama aloca para o modelo com a versão anterior do Ollama. A nova versão é pior.

Enshittificação do Ollama - Os Primeiros Sinais

Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e sua gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora do cloud.

Interfaces de Chat para Instâncias Locais do Ollama

O Ollama hospedado localmente permite que você execute modelos de linguagem grandes em sua própria máquina, mas usar o Ollama via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que oferecem interfaces do tipo ChatGPT que se conectam a um Ollama local.

Reranking de documentos com Ollama e modelo Qwen3 Reranker - em Go

Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo em inglês para o alemão.

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.

Modelos de Embedding e Reranker do Qwen3 no Ollama: Desempenho de Estado da Arte

Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.

Desempenho de LLM e Canais PCIe: Considerações Importantes

Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a perda de desempenho é significativa.

Converta conteúdo HTML em Markdown usando LLM e Ollama

Na biblioteca de modelos do Ollama existem modelos que são capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo. Este guia faz parte do nosso Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF e Fluxos de Trabalho de Impressão hub.

Comparação de assistentes de codificação com IA

Listarei aqui algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA e seus lados positivos.

Ollama

Runner de Modelo Docker vs Ollama (2026): Qual é Melhor para LLMs Locais?

Clientes Go para Ollama: comparação de SDK e exemplos com Qwen3/GPT-OSS

Comparação: Qwen3:30b vs GPT-OSS:20b

Integrando o Ollama com Python: Exemplos de API REST e Cliente Python

Problemas de Saída Estruturada do Ollama GPT-OSS

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1

Enshittificação do Ollama - Os Primeiros Sinais

Interfaces de Chat para Instâncias Locais do Ollama

Reranking de documentos com Ollama e modelo Qwen3 Reranker - em Go

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Modelos de Embedding e Reranker do Qwen3 no Ollama: Desempenho de Estado da Arte

Desempenho de LLM e Canais PCIe: Considerações Importantes

Converta conteúdo HTML em Markdown usando LLM e Ollama

Comparação de assistentes de codificação com IA