Worddocumenten naar Markdown converteren: een compleet gids

Het gebruik van pandoc, python of online tools voor conversie naar MD

Inhoud

Worddocumenten naar Markdown-formaat converteren is een zeer gebruikelijke taak voor technische schrijvers, ontwikkelaars en contentcreators die hun inhoud willen overbrengen naar platforms die Markdown gebruiken (zoals GitHub, GitLab en statische sitegeneratoren zoals Hugo). Deze gids is onderdeel van onze Documentatie-tools in 2026: Markdown, LaTeX, PDF & Afdrukwerkstromen hub.

Deze gids bespreekt meerdere aanpakken en tools om deze conversie effectief uit te voeren.

word naar markdown op de grinder

Waarom Worddocumenten naar Markdown converteren?

Markdown biedt verschillende voordelen ten opzichte van Worddocumenten:

  • Vriendelijk voor versiebeheer: Tekstbestandsformaat werkt goed met Git
  • Platformonafhankelijk: Leesbaar op elk systeem zonder speciale software
  • Toekomstbestendig: Eenvoudig tekstformaat dat niet verouderd raakt
  • Webgereed: Eenvoudig te converteren naar HTML voor websites en blogs
  • Lichtgewicht: Veel kleiner bestandsgrootte
  • Vriendelijk voor automatisering: Eenvoudig te verwerken via programma’s

Wat Pandoc behoudt:

  • Koppen (geconverteerd naar #, ##, ###, enz.)
  • Vetgedrukte en cursief opmaak
  • Lijsten (maken en genummerde)
  • Links en verwijzingen
  • Tabellen (geconverteerd naar Markdown-tabellen of HTML)
  • Codeblokken en inline code
  • Afbeeldingen (met --extract-media optie)
  • Voetnoten

Methode 1: Gebruik van Pandoc (Aanbevolen)

Pandoc is een universele documentconverter die uitstekend werkt bij het converteren tussen verschillende markupformaten. Het is de meest betrouwbare tool voor het converteren van Worddocumenten naar Markdown.

Installeren van Pandoc

Op Ubuntu/Debian:

sudo apt update
sudo apt install pandoc

Op macOS:

# Gebruik Homebrew
brew install pandoc

# Of download van de officiële website
# https://pandoc.org/installing.html

Op Windows:

# Gebruik Chocolatey
choco install pandoc

# Of download de installatieprogramma van:
# https://github.com/jgm/pandoc/releases

Controleer de installatie:

pandoc --version

Converteren met Pandoc

Voor DOCX-bestanden (moderne Wordformaat):

pandoc document.docx -o document.md

Voor oudere DOC-bestanden: Pandoc kan .doc-bestanden niet direct lezen. Je moet ze eerst converteren naar .docx met behulp van LibreOffice:

# Eerst DOC naar DOCX converteren
libreoffice --headless --convert-to docx document.doc

# Vervolgens DOCX naar Markdown converteren
pandoc document.docx -o document.md

Geavanceerde Pandoc-opties:

# Converteren met specifieke Markdown-variant
pandoc document.docx -t gfm -o document.md  # GitHub Flavored Markdown

# Afbeeldingen extraheren naar een map
pandoc document.docx --extract-media=./images -o document.md

# Meer opmaak behouden
pandoc document.docx -t markdown+pipe_tables+raw_html -o document.md

# Converteren met aangepaste sjabloon
pandoc document.docx --template=custom.template -o document.md

Methode 2: Gebruik van LibreOffice + Pandoc (voor DOC-bestanden)

Bij het werken met oudere .doc-bestanden werkt deze tweestapsmethode het beste:

Installeren van LibreOffice

Op Ubuntu/Debian:

sudo apt update
sudo apt install libreoffice

Op macOS:

brew install --cask libreoffice

Op Windows: Download van LibreOffice website

Conversieproces:

# Stap 1: DOC naar DOCX converteren
libreoffice --headless --convert-to docx document.doc

# Stap 2: DOCX naar Markdown converteren met Pandoc
pandoc document.docx -o document.md

# Verwijder tussenliggend DOCX-bestand (optioneel)
rm document.docx

Batchconversie-script met pandoc:

Maak een script om meerdere bestanden te converteren:

#!/bin/bash
# convert-docs.sh

for file in *.doc; do
    if [ -f "$file" ]; then
        echo "Converteer $file..."
        
        # DOC naar DOCX converteren
        libreoffice --headless --convert-to docx "$file"
        
        # Naam van bestand zonder extensie
        basename=$(basename "$file" .doc)
        
        # DOCX naar Markdown converteren
        pandoc "${basename}.docx" -o "${basename}.md"
        
        # Verwijder tussenliggend DOCX-bestand
        rm "${basename}.docx"
        
        echo "✓ Gemaakt ${basename}.md"
    fi
done

Maak het uitvoerbaar en voer uit:

chmod +x convert-docs.sh
./convert-docs.sh

Methode 3: Online converters (snel en eenvoudig)

Voor gelegenheden met zeldzame conversies kunnen online tools handig zijn:

Populaire online converters:

Voordelen en nadelen:

  • Voordelen: Geen installatie vereist, werkt op elk apparaat
  • Nadelen: Privacyproblemen, bestandsgroottebeperkingen, minder controle over uitvoer

Methode 4: Gebruik van de ingebouwde export in Word (beperkt)

Moderne versies van Microsoft Word kunnen exporteren naar basis Markdown:

  1. Open je document in Word
  2. Ga naar BestandExporterenBestandsformaat wijzigen
  3. Selecteer Webpagina, gefilterd (*.html)
  4. Gebruik een HTML naar Markdown converter zoals Pandoc:
pandoc document.html -o document.md

Opmerking: Deze methode levert vaak minder goede resultaten op dan directe DOCX-conversie.

Methode 5: Programmeren oplossingen

Python met python-docx en markdownify:

#!/usr/bin/env python3
import sys
from docx import Document
from markdownify import markdownify

def docx_to_markdown(docx_path, md_path):
    # Lees het docx-bestand
    doc = Document(docx_path)
    
    # Tekst extraheren (basisconversie)
    full_text = []
    for paragraph in doc.paragraphs:
        full_text.append(paragraph.text)
    
    # Converteren naar markdown (basis)
    markdown_content = '\n\n'.join(full_text)
    
    # Schrijf naar bestand
    with open(md_path, 'w', encoding='utf-8') as f:
        f.write(markdown_content)

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Gebruik: python docx_to_md.py input.docx output.md")
        sys.exit(1)
    
    docx_to_markdown(sys.argv[1], sys.argv[2])
    print(f"Geconverteerd {sys.argv[1]} naar {sys.argv[2]}")

Installeer afhankelijkheden:

pip install python-docx markdownify

Opmerking: Dit is een basisimplementatie. Pandoc levert betere resultaten voor complexe documenten.

Het aanpakken van veelvoorkomende problemen

1. Complexe tabellen

# Gebruik pijptabelformaat voor betere compatibiliteit
pandoc document.docx -t markdown+pipe_tables -o document.md

2. Afbeeldingen die niet converteren

# Afbeeldingen extraheren naar een aparte map
pandoc document.docx --extract-media=./images -o document.md

3. Verlies van opmaak

# Meer HTML behouden voor complexe opmaak
pandoc document.docx -t markdown+raw_html -o document.md

4. Karaktersetproblemen

# Specificeer UTF-8 codering
pandoc document.docx -t markdown -o document.md --from=docx --to=markdown

Beste praktijken

1. Voorbereiding voor conversie

  • Reinig je Worddocument voor conversie
  • Gebruik consistente kopstijlen (Hoofding 1, Hoofding 2, enz.)
  • Vermijd complexe opmaak die niet goed overzet naar Markdown
  • Gebruik de ingebouwde lijstopmaak van Word in plaats van handmatige bullets

2. Nadat conversie is uitgevoerd

  • Bekijk de uitvoer op opmaakproblemen
  • Vervolg eventueel tabelopmaak
  • Pas afbeeldingspaden en alternatieve tekst aan
  • Reinig extra lijnbreaks of spaties

3. Automatiseringsaanbevelingen

# Maak een alias voor gebruikelijke conversie
echo 'alias doc2md="pandoc --from=docx --to=markdown"' >> ~/.bashrc

# Functie voor batchconversie
doc2md_batch() {
    for file in *.docx; do
        pandoc "$file" -o "${file%.docx}.md"
    done
}

Vergelijking van methodes

Methode Voordelen Nadelen Beste voor
Pandoc Uitstekende kwaliteit, veel opties Vereist installatie Regelmatige conversies, complexe documenten
LibreOffice + Pandoc Werkt met DOC-bestanden Twee-stapsproces Oude DOC-bestanden
Online converters Geen installatie vereist Privacy, beperkte functies Snel eenmalige conversies
Word export Ingebouwd Slechte kwaliteit van uitvoer Simpele documenten alleen
Programmeren Aanpasbaar Vereist coderen Automatiseringsscenario’s

Korte samenvatting

Voor de meeste gebruikers is Pandoc de aanbevolen oplossing om Worddocumenten naar Markdown te converteren. Het biedt het beste evenwicht tussen kwaliteit, functies en betrouwbaarheid. Voor oude .doc-bestanden werkt de combinatie LibreOffice + Pandoc uitstekend.

De sleutel tot een succesvolle conversie is:

  1. Voorbereiden van je Worddocument met consistente opmaak
  2. Kiezen van het juiste hulpmiddel voor je specifieke behoeften
  3. Controleren en reinigen van de uitvoer
  4. Automatiseren van het proces als je regelmatig conversies doet

Met deze tools en technieken kun je efficiënt je Worddocumenten converteren naar Markdownformaat, terwijl de meeste oorspronkelijke opmaak en structuur behouden blijven.

Snelle verwijzing naar opdrachten

# Basisconversie (DOCX naar Markdown)
pandoc document.docx -o document.md

# DOC naar Markdown (twee stappen)
libreoffice --headless --convert-to docx document.doc
pandoc document.docx -o document.md

# GitHub Flavored Markdown
pandoc document.docx -t gfm -o document.md

# Afbeeldingen extraheren
pandoc document.docx --extract-media=./images -o document.md

# Batch converteren van alle DOCX-bestanden
for file in *.docx; do pandoc "$file" -o "${file%.docx}.md"; done