Converteer HTML-inhoud naar Markdown met behulp van LLM en Ollama
LLM om tekst te extraheren uit HTML...
In de Ollama modellenbibliotheek zijn er modellen die in staat zijn HTML-inhoud om te zetten in Markdown, wat handig is voor inhoudsconversietaken. Deze gids is onderdeel van onze Documentatie Tools in 2026: Markdown, LaTeX, PDF & Printing Workflows hub.
Bijvoorbeeld model reader-lm dat gebaseerd is op qwen2, is getraind om dit te doen.

ReaderLM-v2
Ik heb de volgende versie van zo’n model geprobeerd - reader-lm-v2.
ReaderLM-v2 is gebaseerd op Qwen2.5-1.5B-Instruction.
Ik kan bevestigen: het werkt, maar de conversie is op de een of andere manier wat traag…
Kun je je voorstellen dat je een HTML-webpagina van 500KB moet converteren om tekst uit te extraheren? Misschien zijn er 100.000 tokens? of laat het zelfs maar 10.000 tokens zijn.
Ik heb een voorbeeldpagina van 121KB genomen en de conversietijd op mijn PC is: ~1 sec.
Ollama Commandline aanroepen
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Lees bestandsinhoud als prompt
PROMPT="Extraheer de hoofdinhoud uit de gegeven HTML en converteer deze naar Markdown-formaat.\nhtml:\n $(cat "$INPUT_FILE")"
# Roep Ollama aan en sla de respons op
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama respons opgeslagen in $OUTPUT_FILE"