LLM - Page 4 - Rost Glukhov | Site pessoal e blog técnico

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.

Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto de VRAM a nova versão do Ollama aloca para o modelo com a versão anterior do Ollama. A nova versão é pior.

Enshittificação do Ollama - Os Primeiros Sinais

Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e sua gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora do cloud.

Interfaces de Chat para Instâncias Locais do Ollama

O Ollama hospedado localmente permite que você execute modelos de linguagem grandes em sua própria máquina, mas usar o Ollama via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que oferecem interfaces do tipo ChatGPT que se conectam a um Ollama local.

NVIDIA DGX Spark - novo pequeno supercomputador para IA

Nvidia está prestes a lançar NVIDIA DGX Spark - pequeno supercomputador de IA baseado na arquitetura Blackwell com 128+GB de memória unificada e 1 PFLOPS de desempenho de IA. Dispositivo interessante para executar LLMs.

Protocolo de Contexto do Modelo (MCP), e notas sobre a implementação do servidor MCP em Go

Aqui temos uma descrição do Protocolo de Contexto do Modelo (MCP), notas breves sobre como implementar um servidor MCP em Go, incluindo a estrutura da mensagem e especificações do protocolo.

Reranking de documentos com Ollama e modelo Qwen3 Reranker - em Go

Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo em inglês para o alemão.

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.

Modelos de Embedding e Reranker do Qwen3 no Ollama: Desempenho de Estado da Arte

Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.

Desempenho de LLM e Canais PCIe: Considerações Importantes

Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a perda de desempenho é significativa.

Converta conteúdo HTML em Markdown usando LLM e Ollama

Na biblioteca de modelos do Ollama existem modelos que são capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo. Este guia faz parte do nosso Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF e Fluxos de Trabalho de Impressão hub.

Pesquisa vs. Deepsearch vs. Pesquisa Profunda

Pesquisa é ideal para recuperação rápida e direta de informações usando palavras-chave.
Pesquisa Profunda destaca-se por compreender o contexto e a intenção, entregando resultados mais relevantes e abrangentes para consultas complexas.

Comparação de assistentes de codificação com IA

Listarei aqui algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA e seus lados positivos.

Usar LLMs não é muito caro, talvez não haja necessidade de comprar uma nova GPU incrível. Aqui está uma lista se provedores de LLM na nuvem com LLMs que eles hospedam.

Teste: Como a Ollama está utilizando o desempenho da CPU Intel e os núcleos eficientes

Tenho uma teoria para testar - se utilizar todos os núcleos em uma CPU Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está rodando parcialmente na CPU.