Converta conteúdo HTML para Markdown usando LLM e Ollama.

LLM para extrair texto de HTML...

Conteúdo da página

Na biblioteca de modelos do Ollama, existem modelos capazes de converter conteúdo HTML para Markdown, o que é útil para tarefas de conversão de conteúdo.

Este guia faz parte do nosso hub Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF e Fluxos de Impressão.

Por exemplo, o modelo reader-lm, que é baseado no qwen2, foi treinado para realizar essa tarefa.

llama is pulling html cart

ReaderLM-v2

Testei a próxima versão deste modelo - reader-lm-v2. O ReaderLM-v2 é construído sobre o Qwen2.5-1.5B-Instruction. Posso confirmar: funciona, mas a conversão é um pouco lenta…

Você consegue imaginar uma página HTML de 500KB da qual você precisa extrair o texto? Talvez haja 100.000 tokens? Ou mesmo 10k tokens.

Peguei uma página de exemplo de 121KB e o tempo de conversão no meu PC foi: ~1 segundo.

Chamando a Linha de Comando do Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Read file content as prompt
PROMPT="Extract the main content from the given HTML and convert it to Markdown format.\nhtml:\n $(cat "$INPUT_FILE")"

# Call Ollama and save the response
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama response saved to $OUTPUT_FILE"

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.