LLM Performance

Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui comparo a velocidade de vários LLMs executados em uma GPU com 16 GB de VRAM e escolho o melhor para auto-hospedagem.

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

Executar grandes modelos de linguagem (LLMs) localmente oferece privacidade, capacidade offline e zero custo de API. Este teste revela exatamente o que se pode esperar de 14 LLMs populares LLMs no Ollama em uma RTX 4080.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

ASICs para LLMs e chips especializados de inferência (por que são importantes)

O futuro da IA não se trata apenas de modelos mais inteligentes. Trata-se também de silício que corresponda à forma como esses modelos são realmente servidos. Hardware especializado para inferência de LLM está seguindo um caminho que remete à migração da mineração de Bitcoin de GPUs para ASICs de propósito construído, mas com restrições mais difíceis, pois os modelos e receitas de precisão continuam evoluindo.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b, focando na seguir instruções e parâmetros de desempenho, especificações e velocidade.

Problemas de Saída Estruturada no Ollama GPT-OSS

Os modelos GPT-OSS da Ollama apresentam problemas recorrentes no manuseio de saída estruturada, especialmente quando utilizados com frameworks como LangChain, SDK da OpenAI, vllm e outros.

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.

Comparando a adequação das GPUs da NVidia para IA

No meio da agitação do mundo moderno, estou comparando as especificações técnicas de diferentes placas adequadas para tarefas de IA (Aprendizado Profundo, Detecção de Objetos e LLMs). No entanto, todas elas são incrivelmente caras.

Como o Ollama Lida com Solicitações Paralelas

Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Comparando as Capacidades de Resumo dos LLMs

Testando como modelos com diferentes números de parâmetros e quantização estão se comportando.

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.

LLM Performance

Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

ASICs para LLMs e chips especializados de inferência (por que são importantes)

Comparação: Qwen3:30b vs GPT-OSS:20b

Problemas de Saída Estruturada no Ollama GPT-OSS

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Comparando a adequação das GPUs da NVidia para IA

Como o Ollama Lida com Solicitações Paralelas

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Gemma2 x Qwen2 x Mistral Nemo x...

Comparando as Capacidades de Resumo dos LLMs

Teste de Velocidade de Grandes Modelos de Linguagem