LLM과 Ollama를 사용하여 HTML 콘텐츠를 Markdown으로 변환하세요.
LLM을 사용하여 HTML에서 텍스트 추출...
Page content
Ollama 모델 라이브러리에는 HTML 콘텐츠를 Markdown으로 변환할 수 있는 모델이 포함되어 있습니다. 이는 콘텐츠 변환 작업에 유용합니다. 이 가이드는 우리의 2026년 문서화 도구: Markdown, LaTeX, PDF 및 인쇄 워크플로우 허브의 일부입니다.
예를 들어, qwen2 기반의 reader-lm 모델은 이러한 작업을 수행하도록 훈련되었습니다.

ReaderLM-v2
다음과 같은 모델 버전인 reader-lm-v2를 시도해 보았습니다.
ReaderLM-v2는 Qwen2.5-1.5B-Instruction 기반으로 구성되었습니다.
저는 확인해 보았습니다: 동작함, 하지만 변환은 약간 느리다는 점은 있습니다…
500KB의 HTML 웹페이지를 변환하여 텍스트를 추출해야 한다고 상상해 보세요? 아마도 100,000개의 토큰이 있을지도 모르고, 혹은 10,000개의 토큰이 있을 수도 있습니다.
121KB의 샘플 페이지를 사용하여 변환 시간을 측정해 보았는데, 제 PC에서의 변환 시간은 약 1초였습니다.
Ollama 명령줄 사용법
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# 파일 내용을 프롬프트로 읽음
PROMPT="주어진 HTML에서 주요 콘텐츠를 추출하고 Markdown 형식으로 변환하세요.\nhtml:\n $(cat "$INPUT_FILE")"
# Ollama 실행 및 응답 저장
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama 응답이 $OUTPUT_FILE에 저장되었습니다."