LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する
LLMでHTMLからテキストを抽出する...
目次
Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。このガイドは、2026年のドキュメンテーションツール: Markdown、LaTeX、PDFおよび印刷ワークフロー ハブの一部です。
例えば、qwen2に基づいて訓練されたモデル reader-lm は、このタスクを行うために訓練されています。

ReaderLM-v2
私は次のバージョンのモデル reader-lm-v2 も試してみました。
ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。
私は確認しました:動作します、しかし変換はやや遅いです…
500KBのHTMLウェブページからテキストを抽出する必要があることを想像できますか? 100000トークンがあるかもしれませんし、10000トークンでもあるかもしれません。
私は121KBのサンプルページを取りました。私のPCでの変換時間は:約1秒です。
Ollama コマンドラインの呼び出し
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# ファイル内容をプロンプトとして読み込む
PROMPT="指定されたHTMLからメインコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"
# Ollamaを呼び出して応答を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollamaの応答は $OUTPUT_FILE に保存されました"