Docker Model Runner vs Ollama (2026): Qual é Melhor para LLMs Locais?

Compare o Docker Model Runner e o Ollama para LLM locais.

Execução local de grandes modelos de linguagem (LLMs) tornou-se cada vez mais popular devido à privacidade, controle de custos e capacidades offline. O cenário mudou significativamente em abril de 2025, quando a Docker introduziu o Docker Model Runner (DMR), sua solução oficial para implantação de modelos de IA.

Agora, três abordagens competem pela atenção dos desenvolvedores: o Model Runner nativo da Docker, soluções containerizadas de terceiros (vLLM, TGI) e a plataforma independente Ollama.

Para uma visão mais ampla que inclui provedores de nuvem e compensações de infraestrutura, consulte Hospedagem de LLM: Local, Auto-hospedado e Infraestrutura em Nuvem Comparados.

TL;DR – Docker Model Runner vs Ollama

Esta comparação foca na execução local de grandes modelos de linguagem (LLMs) usando Docker ou runtimes independentes, cobrindo desempenho, suporte a GPU, compatibilidade de API e cenários de implantação em produção.

  • Melhor para fluxos de trabalho nativos do Docker: Docker Model Runner
  • Melhor para simplicidade e prototipagem rápida: Ollama
  • Melhor para Kubernetes e orquestração: Configurações baseadas em Docker
  • Melhor para desenvolvimento em máquina única: Ollama

Se você já usa o Docker intensivamente, o DMR faz sentido.
Se você quer a maneira mais rápida de executar LLMs localmente, o Ollama é mais simples.

Se você está comparando mais do que apenas o Docker Model Runner e o Ollama, consulte nossa análise completa de Ollama vs vLLM vs LM Studio e outras ferramentas locais de LLM. Este guia compara maturidade de API, suporte de hardware, chamada de ferramentas e prontidão para produção em mais de 12 runtimes locais de LLM.

Docker Model Runner vs Ollama: Comparação Direta

Com a entrada oficial da Docker no espaço de execução de LLMs, a comparação torna-se mais interessante. Veja como DMR e Ollama se comparam cara a cara:

Característica Docker Model Runner Ollama
Instalação Aba AI do Docker Desktop ou docker-model-plugin Comando único: curl | sh
Estilo de Comando docker model pull/run/package ollama pull/run/list
Formato do Modelo GGUF (Artefatos OCI) GGUF (nativo)
Distribuição de Modelos Docker Hub, registros OCI Registro do Ollama
Configuração de GPU Automática (mais simples que Docker tradicional) Automática
API Compatível com OpenAI Compatível com OpenAI
Integração Docker Nativa (é o próprio Docker) Executa no Docker se necessário
Suporte a Compose Nativo Via imagem Docker
Curva de Aprendizado Baixa (para usuários do Docker) A mais baixa (para todos)
Parceiros do Ecossistema Google, Hugging Face, VMware LangChain, CrewAI, Open WebUI
Melhor Para Fluxos de trabalho nativos do Docker Simplicidade independente

Insight Chave: O DMR traz fluxos de trabalho do Docker para a implantação de LLMs, enquanto o Ollama permanece agnóstico a frameworks com operação independente mais simples. Sua infraestrutura existente importa mais do que as diferenças técnicas.

docker model runner windows

O Docker Model Runner é Melhor que o Ollama?

Depende do seu fluxo de trabalho.

  • Escolha o Docker Model Runner (DMR) se sua equipe já depende pesadamente do Docker, artefatos OCI e orquestração de containers.
  • Escolha o Ollama se você quer a maneira mais simples de executar LLMs localmente com configuração mínima e prototipagem rápida.

Para a maioria das configurações de máquina única, o Ollama é mais fácil de usar.
Para pipelines CI/CD nativos do Docker e fluxos de trabalho corporativos de containers, o DMR se integra mais naturalmente.

Como Executar um LLM no Docker: DMR vs Ollama

Se o seu objetivo é simplesmente executar um LLM dentro do Docker, tanto o Docker Model Runner quanto o Ollama em containers Docker podem alcançar isso.

O Docker Model Runner usa os comandos nativos docker model pull e docker model run, empacotando modelos como artefatos OCI.

O Ollama também pode ser executado dentro do Docker usando a imagem de container oficial ollama/ollama, expondo uma API compatível com OpenAI na porta 11434.

A diferença fundamental reside na integração do fluxo de trabalho:

  • O DMR se encaixa naturalmente em pipelines CI/CD nativos do Docker.
  • O Ollama no Docker oferece gerenciamento de modelos mais simples com flexibilidade de orquestração do Docker.

Entendendo os Model Runners Baseados em Docker

Os model runners baseados em Docker usam containerização para empacotar motores de inferência de LLM junto com suas dependências. O cenário inclui tanto a solução oficial da Docker quanto frameworks de terceiros.

Docker Model Runner (DMR) - Solução Oficial

Em abril de 2025, a Docker introduziu o Docker Model Runner (DMR), um produto oficial projetado para simplificar a execução de modelos de IA localmente usando a infraestrutura da Docker. Isso representa o compromisso da Docker em tornar a implantação de modelos de IA tão simples quanto a implantação de containers.

Principais Características do DMR:

  • Integração Nativa com Docker: Usa comandos Docker familiares (docker model pull, docker model run, docker model package)
  • Empacotamento de Artefatos OCI: Modelos são empacotados como Artefatos OCI, permitindo distribuição através do Docker Hub e outros registros
  • API Compatível com OpenAI: Substituição direta para endpoints OpenAI, simplificando a integração
  • Aceleração de GPU: Suporte nativo a GPU sem configuração complexa de nvidia-docker
  • Suporte a Formato GGUF: Funciona com formatos de modelos quantizados populares
  • Integração com Docker Compose: Configure e deploye modelos facilmente usando ferramentas padrão do Docker
  • Suporte a Testcontainers: Integra-se perfeitamente com frameworks de teste

Instalação:

  • Docker Desktop: Ative via aba AI nas configurações
  • Docker Engine: Instale o pacote docker-model-plugin

Exemplo de Uso:

# Baixe um modelo do Docker Hub
docker model pull ai/smollm2

# Execute inferência
docker model run ai/smollm2 "Explique o Docker Model Runner"

# Empacote modelo personalizado
docker model package --gguf /caminho/para/modelo.gguf --push minhaorg/meumodelo:latest

Para uma referência completa dos comandos docker model, opções de empacotamento, flags de configuração e exemplos práticos, consulte nosso detalhado Guia de Comandos e Exemplos do Docker Model Runner. Ele cobre o download, empacotamento, configuração de modelos e melhores práticas para implantação local de LLMs com Docker.

O DMR é parceiro da Google, Hugging Face e VMware Tanzu para expandir o ecossistema de modelos de IA disponíveis através do Docker Hub. Se você é novo no Docker ou precisa de uma revisão sobre comandos Docker, nosso Guia Rápido do Docker oferece um guia abrangente para operações essenciais do Docker.

Soluções Docker de Terceiros

Além do DMR, o ecossistema inclui frameworks estabelecidos:

  • Containers vLLM: Servidor de inferência de alto throughput otimizado para processamento em lote
  • Text Generation Inference (TGI): Solução pronta para produção da Hugging Face
  • Containers llama.cpp: Implementação C++ leve com quantização
  • Containers Personalizados: Envoltórios para PyTorch, Transformers ou frameworks proprietários

Vantagens da Abordagem Docker

Flexibilidade e Agnosticismo a Frameworks: Containers Docker podem executar qualquer framework de LLM, do PyTorch ao ONNX Runtime, dando aos desenvolvedores controle total sobre a pilha de inferência.

Isolamento de Recursos: Cada container opera em ambientes isolados com limites de recursos definidos (CPU, memória, GPU), prevenindo conflitos de recursos em implantações de múltiplos modelos.

Suporte a Orquestração: Docker integra-se perfeitamente com Kubernetes, Docker Swarm e plataformas de nuvem para escalabilidade, balanceamento de carga e alta disponibilidade.

Controle de Versão: Diferentes versões de modelos ou frameworks podem coexistir no mesmo sistema sem conflitos de dependência.

Desvantagens da Abordagem Docker

Complexidade: Requer compreensão de containerização, montagens de volume, configuração de rede e passagem de GPU (nvidia-docker).

Overhead: Embora mínimo, o Docker adiciona uma fina camada de abstração que impacta ligeiramente o tempo de inicialização e uso de recursos.

Carga de Configuração: Cada implantação requer configuração cuidadosa de Dockerfiles, variáveis de ambiente e parâmetros de runtime.

Entendendo o Ollama

Ollama é uma aplicação projetada especificamente para executar LLMs localmente, com simplicidade como seu princípio central. Ele fornece:

  • Binário nativo para Linux, macOS e Windows
  • Biblioteca de modelos embutida com instalação em um comando
  • Detecção e otimização automática de GPU
  • API RESTful compatível com o formato do OpenAI
  • Gerenciamento de contexto e estado do modelo

Vantagens do Ollama

Simplicidade: A instalação é direta (curl | sh no Linux) e executar modelos requer apenas ollama run llama2. Para uma referência completa dos comandos CLI do Ollama, como ollama serve, ollama run, ollama ps e fluxos de gerenciamento de modelos, consulte nosso Guia Rápido da CLI do Ollama.

Desempenho Otimizado: Construído sobre llama.cpp, o Ollama é altamente otimizado para velocidade de inferência com suporte a quantização (Q4, Q5, Q8).

Gerenciamento de Modelos: Registro de modelos embutido com comandos como ollama pull, ollama list e ollama rm simplifica o ciclo de vida do modelo.

Experiência do Desenvolvedor: API limpa, documentação extensa e ecossistema crescente de integrações (LangChain, CrewAI, etc.). A versatilidade do Ollama se estende a casos de uso especializados como reclassificação de documentos de texto com modelos de embedding.

Eficiência de Recursos: Gerenciamento automático de memória e descarregamento de modelos quando inativos conserva recursos do sistema.

ollama ui

Desvantagens do Ollama

Travamento de Framework: Suporta principalmente modelos compatíveis com llama.cpp, limitando a flexibilidade para frameworks como vLLM ou motores de inferência personalizados.

Personalização Limitada: Configurações avançadas (quantização personalizada, streams CUDA específicos) são menos acessíveis do que em ambientes Docker.

Desafios de Orquestração: Embora o Ollama possa rodar em containers, ele carece de suporte nativo para recursos avançados de orquestração como escalonamento horizontal.

Comparação de Desempenho

Velocidade de Inferência

Docker Model Runner: Desempenho comparável ao Ollama, pois ambos suportam modelos quantizados GGUF. Para Llama 2 7B (Q4), espere 20-30 tokens/segundo em CPU e 50-80 tokens/segundo em GPUs de nível médio. Overhead de container mínimo.

Ollama: Aproveita o backend altamente otimizado llama.cpp com quantização eficiente. Para Llama 2 7B (Q4), espere 20-30 tokens/segundo em CPU e 50-80 tokens/segundo em GPUs de nível médio. Sem overhead de containerização. Para detalhes sobre como o Ollama gerencia inferência concorrente, veja nossa análise sobre como o Ollama lida com solicitações paralelas.

Docker (vLLM): Otimizado para processamento em lote com lotes contínuos. Solicitações únicas podem ser ligeiramente mais lentas, mas o throughput se destaca sob alta carga concorrente (100+ tokens/segundo por modelo com lotes).

Docker (TGI): Semelhante ao vLLM com excelente desempenho de lotes. Adiciona recursos como streaming e geração token por token.

Uso de Memória

Docker Model Runner: Semelhante ao Ollama com carregamento automático de modelos. Modelos GGUF Q4 tipicamente usam 4-6GB de RAM. O overhead do container é mínimo (dezenas de MB).

A configuração do tamanho do contexto pode impactar significativamente o uso de memória e o comportamento do modelo. Por padrão, algumas imagens CUDA do Docker Model Runner têm um limite de 4096 tokens hardcoded, mesmo que valores mais altos sejam especificados no docker-compose. Para passos detalhados sobre como substituir esse comportamento e empacotar modelos com tamanhos de contexto personalizados, consulte nosso guia sobre configuração de tamanho de contexto no Docker Model Runner.

Ollama: Gerenciamento automático de memória carrega modelos sob demanda e os descarrega quando inativos. Um modelo 7B Q4 tipicamente usa 4-6GB de RAM. Mais eficiente para cenários de modelo único.

Soluções Docker Tradicionais: A memória depende do framework. O vLLM pré-aloca memória GPU para desempenho ótimo, enquanto containers baseados em PyTorch podem usar mais RAM para pesos do modelo e cache KV (8-14GB para modelos 7B).

Tempo de Inicialização

Docker Model Runner: A inicialização do container adiciona ~1 segundo, mais o carregamento do modelo (2-5 segundos). Total: 3-6 segundos para modelos de tamanho médio.

Ollama: Inicialização quase instantânea com carregamento do modelo levando 2-5 segundos para modelos de tamanho médio. Experiência de inicialização a frio mais rápida.

Docker Tradicional: A inicialização do container adiciona 1-3 segundos, mais o tempo de carregamento do modelo. Pré-aquecimento de containers mitiga isso em implantações de produção.

Recomendações de Casos de Uso

Quando Escolher Docker Model Runner

  • Fluxo de trabalho primeiro Docker: Sua equipe já usa Docker extensivamente
  • Ferramentas unificadas: Você quer uma única ferramenta (Docker) para containers e modelos
  • Distribuição de artefatos OCI: Você precisa de integração com registro corporativo
  • Integração Testcontainers: Você está testando recursos de IA em CI/CD
  • Preferência Docker Hub: Você quer distribuição de modelos através de canais familiares

Quando Escolher Ollama

  • Prototipagem rápida: Experimentação rápida com diferentes modelos
  • Agnóstico a framework: Não vinculado ao ecossistema Docker
  • Simplicidade absoluta: Overhead mínimo de configuração e manutenção
  • Implantações em servidor único: Executando em laptops, estações de trabalho ou VMs únicas
  • Biblioteca de modelos grande: Acesso a extenso registro de modelos pré-configurados

Quando Escolher Soluções Docker de Terceiros

  • Implantações em produção: Necessidade de orquestração e monitoramento avançados
  • Serving de múltiplos modelos: Executando diferentes frameworks (vLLM, TGI) simultaneamente
  • Orquestração Kubernetes: Escalonamento através de clusters com balanceamento de carga
  • Frameworks personalizados: Usando Ray Serve ou motores de inferência proprietários
  • Controle estrito de recursos: Impor limites granulares de CPU/GPU por modelo

Abordagens Híbridas: O Melhor dos Dois Mundos

Você não está limitado a uma única abordagem. Considere essas estratégias híbridas:

Opção 1: Docker Model Runner + Containers Tradicionais

Use DMR para modelos padrão e containers de terceiros para frameworks especializados:

# Baixe um modelo padrão com DMR
docker model pull ai/llama2

# Execute vLLM para cenários de alto throughput
docker run --gpus all vllm/vllm-openai

Opção 2: Ollama no Docker

Execute Ollama dentro de containers Docker para capacidades de orquestração:

docker run -d \
  --name ollama \
  --gpus all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama

Isso fornece:

  • Gerenciamento de modelos intuitivo do Ollama
  • Capacidades de orquestração e isolamento do Docker
  • Implantação Kubernetes com manifestos padrão

Opção 3: Mistura e Correspondência por Caso de Uso

  • Desenvolvimento: Ollama para iteração rápida
  • Staging: Docker Model Runner para testes de integração
  • Produção: vLLM/TGI em Kubernetes para escala

Compatibilidade de API

Todas as soluções modernas convergem para APIs compatíveis com OpenAI, simplificando a integração:

API Docker Model Runner: Endpoints compatíveis com OpenAI servidos automaticamente ao executar modelos. Nenhuma configuração adicional necessária.

# Modelo executa com API automaticamente exposta
docker model run ai/llama2

# Use endpoint compatível com OpenAI
curl http://localhost:8080/v1/chat/completions -d '{
  "model": "llama2",
  "messages": [{"role": "user", "content": "Por que o céu é azul?"}]
}'

API Ollama: Endpoints compatíveis com OpenAI o tornam uma substituição direta para aplicativos que usam o SDK do OpenAI. Streaming é totalmente suportado.

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Por que o céu é azul?"
}'

APIs Docker de Terceiros: vLLM e TGI oferecem endpoints compatíveis com OpenAI, enquanto containers personalizados podem implementar APIs proprietárias.

A convergência na compatibilidade OpenAI significa que você pode alternar entre soluções com mudanças mínimas de código.

Gerenciamento de Recursos

Aceleração de GPU

Docker Model Runner: Suporte nativo a GPU sem configuração complexa de nvidia-docker. Detecta e usa GPUs disponíveis automaticamente, simplificando significativamente a experiência de GPU do Docker em comparação com containers tradicionais.

Se você está usando GPUs NVIDIA e quer configurar a aceleração CUDA corretamente, consulte nosso guia detalhado sobre adicionar suporte a GPU NVIDIA ao Docker Model Runner. Ele cobre a configuração do daemon Docker, instalação do NVIDIA Container Toolkit e como verificar se seu LLM está realmente usando memória de GPU em vez de recorrer à inferência de CPU.

# Aceleração de GPU funciona automaticamente
docker model run ai/llama2

Ollama: Detecção automática de GPU em GPUs NVIDIA compatíveis com CUDA. Nenhuma configuração necessária além da instalação de drivers.

Containers Docker Tradicionais: Requer runtime nvidia-docker e alocação explícita de GPU:

docker run --gpus all meu-container-llm

Fallback para CPU

Ambos recaem graciosamente para inferência de CPU quando GPUs não estão disponíveis, embora o desempenho diminua significativamente (5-10x mais lento para grandes modelos). Para insights sobre desempenho apenas com CPU em processadores modernos, leia nosso teste sobre como o Ollama usa CPUs Intel Performance e Efficient Cores.

Suporte Multi-GPU

Ollama: Suporta paralelismo de tensor através de múltiplas GPUs para grandes modelos.

Docker: Depende do framework. vLLM e TGI suportam inferência multi-GPU com configuração adequada.

Comunidade e Ecossistema

Docker Model Runner: Lançado em abril de 2025 com forte apoio corporativo. Parcerias com Google, Hugging Face e VMware Tanzu AI Solutions garantem ampla disponibilidade de modelos. A integração com a enorme comunidade de desenvolvedores da Docker (milhões de usuários) fornece acesso instantâneo ao ecossistema. Ainda construindo recursos específicos da comunidade como produto novo.

Ollama: Comunidade em crescimento rápido com 50K+ estrelas no GitHub. Ecossistema de integração forte (LangChain, LiteLLM, Open WebUI, CrewAI) e comunidade ativa no Discord. Extensas ferramentas e tutoriais de terceiros disponíveis. Documentação e recursos da comunidade mais maduros. Para uma visão geral abrangente de interfaces disponíveis, consulte nosso guia de UIs de chat de código aberto para instâncias locais do Ollama. Como com qualquer projeto de código aberto em crescimento rápido, é importante monitorar a direção do projeto - leia nossa análise de primeiros sinais de degradação do Ollama para entender preocupações potenciais.

Soluções Docker de Terceiros: vLLM e TGI têm ecossistemas maduros com suporte corporativo. Estudos de caso de produção extensos, guias de otimização e padrões de implantação da Hugging Face e contribuintes da comunidade.

Considerações de Custo

Docker Model Runner: Gratuito com Docker Desktop (pessoal/educacional) ou Docker Engine. Docker Desktop requer assinatura para organizações maiores (250+ funcionários ou receita de $10M+). Modelos distribuídos através do Docker Hub seguem a precificação do registro da Docker (repositórios públicos gratuitos, repositórios privados pagos).

Ollama: Totalmente gratuito e de código aberto sem custos de licenciamento, independentemente do tamanho da organização. Custos de recursos dependem apenas do hardware.

Soluções Docker de Terceiros: Gratuitas para frameworks de código aberto (vLLM, TGI). Custos potenciais para plataformas de orquestração de containers (ECS, GKE) e armazenamento de registro privado.

Considerações de Segurança

Docker Model Runner: Aproveita o modelo de segurança da Docker com isolamento de container. Modelos empacotados como Artefatos OCI podem ser escaneados e assinados. Distribuição através do Docker Hub permite controle de acesso e varredura de vulnerabilidades para usuários corporativos.

Ollama: Executa como serviço local com API exposta em localhost por padrão. Exposição de rede requer configuração explícita. Registro de modelos é confiável (curado pelo Ollama), reduzindo riscos de cadeia de suprimentos.

Soluções Docker Tradicionais: Isolamento de rede é embutido. Escaneamento de segurança de containers (Snyk, Trivy) e assinatura de imagens são práticas padrão em ambientes de produção.

Todas as soluções requerem atenção a:

  • Proveniência do modelo: Modelos não confiáveis podem conter código malicioso ou backdoors
  • Autenticação de API: Implemente autenticação/autorização em implantações de produção
  • Limitação de taxa: Previna abuso e esgotamento de recursos
  • Exposição de rede: Garanta que APIs não sejam inadvertidamente expostas à internet
  • Privacidade de dados: Modelos processam dados sensíveis; garanta conformidade com regulamentos de proteção de dados

Caminhos de Migração

De Ollama para Docker Model Runner

O suporte GGUF do Docker Model Runner torna a migração simples:

  1. Ative Docker Model Runner no Docker Desktop ou instale docker-model-plugin
  2. Converta referências de modelo: ollama run llama2docker model pull ai/llama2 e docker model run ai/llama2
  3. Atualize endpoints de API de localhost:11434 para endpoint DMR (tipicamente localhost:8080)
  4. Ambos usam APIs compatíveis com OpenAI, então o código do aplicativo requer mudanças mínimas

De Docker Model Runner para Ollama

Migrando para Ollama para operação independente mais simples:

  1. Instale Ollama: curl -fsSL https://ollama.ai/install.sh | sh. Para uma lista completa de comandos CLI do Ollama e opções de configuração, consulte o guia rápido da CLI do Ollama.
  2. Baixe modelos equivalentes: ollama pull llama2
  3. Atualize endpoints de API para localhost:11434 do Ollama
  4. Teste com ollama run llama2 para verificar funcionalidade

De Containers Docker Tradicionais para DMR

Simplifique sua configuração de LLM Docker:

  1. Ative Docker Model Runner
  2. Substitua Dockerfiles personalizados por comandos docker model pull
  3. Remova configuração nvidia-docker (DMR lida com GPU automaticamente)
  4. Use docker model run em vez de comandos complexos docker run

De Qualquer Solução para Ollama no Docker

Abordagem do melhor dos dois mundos:

  1. docker pull ollama/ollama
  2. Execute: docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
  3. Use comandos Ollama como de costume: docker exec -it ollama ollama pull llama2
  4. Ganhe orquestração Docker com simplicidade do Ollama

Monitoramento e Observabilidade

Ollama: Métricas básicas via API (/api/tags, /api/ps). Ferramentas de terceiros como Open WebUI fornecem dashboards.

Docker: Integração completa com Prometheus, Grafana, stack ELK e serviços de monitoramento em nuvem. Métricas de container (CPU, memória, GPU) estão prontamente disponíveis.

Conclusão

O cenário de implantação local de LLM evoluiu significativamente com a introdução do Docker Model Runner (DMR) pela Docker em 2025. A escolha agora depende dos seus requisitos específicos:

  • Para desenvolvedores que buscam integração Docker: DMR fornece integração nativa de fluxo de trabalho Docker com comandos docker model
  • Para simplicidade máxima: Ollama continua sendo a solução mais fácil com seu gerenciamento de modelos em um comando
  • Para produção e corporativo: Tanto DMR quanto soluções de terceiros (vLLM, TGI) no Docker oferecem orquestração, monitoramento e escalabilidade
  • Para o melhor dos dois mundos: Execute Ollama em containers Docker para combinar simplicidade com infraestrutura de produção

A introdução do DMR reduz a lacuna entre Docker e Ollama em termos de facilidade de uso. Ollama ainda vence em simplicidade para prototipagem rápida, enquanto o DMR se destaca para equipes já investidas em fluxos de trabalho Docker. Ambas as abordagens são ativamente desenvolvidas, prontas para produção, e o ecossistema é maduro o suficiente para que a troca entre eles seja relativamente indolor.

Conclusão: Se você já usa Docker extensivamente, o DMR é a escolha natural. Se você quer a experiência absolutamente mais simples, independentemente da infraestrutura, escolha Ollama. Para comparar essas opções locais com APIs de nuvem e outras configurações auto-hospedadas, consulte nosso guia Hospedagem de LLM: Local, Auto-hospedado e Infraestrutura em Nuvem Comparados.

Docker Model Runner

Ollama

Outras Soluções Docker

Outros Artigos Úteis

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.