LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する

LLMでHTMLからテキストを抽出する...

目次

Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。このガイドは、2026年のドキュメンテーションツール: Markdown、LaTeX、PDFおよび印刷ワークフロー ハブの一部です。

例えば、qwen2に基づいて訓練されたモデル reader-lm は、このタスクを行うために訓練されています。

llama is pulling html cart

ReaderLM-v2

私は次のバージョンのモデル reader-lm-v2 も試してみました。 ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。 私は確認しました:動作します、しかし変換はやや遅いです…

500KBのHTMLウェブページからテキストを抽出する必要があることを想像できますか? 100000トークンがあるかもしれませんし、10000トークンでもあるかもしれません。

私は121KBのサンプルページを取りました。私のPCでの変換時間は:約1秒です。

Ollama コマンドラインの呼び出し

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# ファイル内容をプロンプトとして読み込む
PROMPT="指定されたHTMLからメインコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"

# Ollamaを呼び出して応答を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollamaの応答は $OUTPUT_FILE に保存されました"

有用なリンク