LLM Performance

ASICs para LLMs e chips especializados de inferência (por que são importantes)

ASICs para LLMs e chips especializados de inferência (por que são importantes)

ASICs e silício personalizado impulsionam a velocidade e a eficiência da inferência de LLMs.

O futuro da IA não se trata apenas de modelos mais inteligentes. Trata-se também de silício que corresponda à forma como esses modelos são realmente servidos. Hardware especializado para inferência de LLM está seguindo um caminho que remete à migração da mineração de Bitcoin de GPUs para ASICs de propósito construído, mas com restrições mais difíceis, pois os modelos e receitas de precisão continuam evoluindo.

Como o Ollama Lida com Solicitações Paralelas

Como o Ollama Lida com Solicitações Paralelas

Compreenda a concorrência e a fila do Ollama e aprenda como ajustar o OLLAMA_NUM_PARALLEL para solicitações paralelas estáveis.

Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).

Gemma2 x Qwen2 x Mistral Nemo x...

Gemma2 x Qwen2 x Mistral Nemo x...

Teste de detecção de falácias lógicas

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Teste de Velocidade de Grandes Modelos de Linguagem

Teste de Velocidade de Grandes Modelos de Linguagem

Vamos testar a velocidade dos LLMs em GPU versus CPU.

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.