Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama

LLM do wyodrębniania tekstu z HTML...

Page content

W bibliotece modeli Ollama są modele, które potrafią konwertować zawartość HTML na Markdown, co jest przydatne w zadaniach związanych z konwersją treści. Ten przewodnik jest częścią naszego Narzędzia dokumentacyjne w 2026: Markdown, LaTeX, PDF i przepływ pracy druku hub.

Na przykład model reader-lm, który oparty jest na qwen2, został wytrenowany do tego.

llama is pulling html cart

ReaderLM-v2

Wypróbowałem kolejną wersję takiego modelu – reader-lm-v2. ReaderLM-v2 oparty jest na Qwen2.5-1.5B-Instruction. Można potwierdzić: działa, ale konwersja jest w pewnym sensie wolna…

Czy potrafisz wyobrazić sobie stronę HTML o wielkości 500KB, z której musisz wyodrębnić tekst? Może tam jest 100 000 tokenów? albo nawet 10 000 tokenów.

Wezbrałem próbki strony o wielkości 121KB, a czas konwersji na moim komputerze to: ~1 sekunda.

Wywoływanie wiersza poleceń Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Odczytaj zawartość pliku jako wskazówkę
PROMPT="Wyodrębnij główną treść z podanego HTML i przekonwertuj ją do formatu Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Wywołaj Ollama i zapisz odpowiedź
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Odpowiedź Ollama zapisana w $OUTPUT_FILE"

Przydatne linki