Bilder aus PDFs mit poppler extrahieren

Wenn Sie ein Bild aus einer PDF-Datei extrahieren müssen

Inhaltsverzeichnis

Manchmal besteht ein echter Bedarf, Bilder aus einem PDF-Datei zu speichern, ohne Screenshots zu machen oder das PDF auf dem Bildschirm darzustellen. pdfimages hilft dabei. Dieser Leitfaden ist Teil unseres Documentation Tools in 2026: Markdown, LaTeX, PDF & Printing Workflows Hubs.

Ein Comic-Bild eines Mannes, der ein Foto des Diagramms auf dem Bildschirm macht

Um Bilder aus einer PDF-Datei unter Linux zu extrahieren, ist das am häufigsten verwendete und effektivste Werkzeug die Kommandozeilen-Utility pdfimages,
die Teil des poppler-utils Pakets ist.

Verwenden des pdfimages-Tools in Linux: Schritt-für-Schritt-Anleitung

1. Installieren Sie pdfimages (falls noch nicht installiert):

Die meisten Linux-Distributionen enthalten pdfimages standardmäßig. Falls erforderlich, installieren Sie es mit Ihrem Paketmanager:

sudo apt-get install poppler-utils

oder für Fedora:

sudo dnf install poppler-utils

2. Öffnen Sie ein Terminal:

Drücken Sie Ctrl + Alt + T, um ein Terminalfenster zu öffnen.

3. Führen Sie pdfimages aus, um Bilder zu extrahieren:

Grundlegende Syntax:

pdfimages  

Beispiel:

pdfimages /pfad/zur/datei.pdf /pfad/zum/ausgabebild
  • Dies extrahiert alle Bilder aus datei.pdf und speichert sie als bild-000.ppm, bild-001.ppm usw. im angegebenen Ausgabeverzeichnis.

4. Bilder als JPEG extrahieren (falls gewünscht):

Um Bilder im JPEG-Format (wenn möglich) zu extrahieren, verwenden Sie die Option -j:

pdfimages -j /pfad/zur/datei.pdf /pfad/zum/ausgabebild
  • Dies speichert JPEG-Bilder als .jpg-Dateien.

5. Bilder aus bestimmten Seiten extrahieren:

  • Um Bilder aus einem Bereich von Seiten zu extrahieren, verwenden Sie -f (erste Seite) und -l (letzte Seite):
pdfimages -f 2 -l 5 -j /pfad/zur/datei.pdf /pfad/zum/ausgabebild
  • Dies extrahiert Bilder aus den Seiten 2 bis 5.

6. Weitere Optionen:

  • Um Bilder als PNG zu extrahieren: verwenden Sie -png (wenn von Ihrer Version unterstützt).
  • Für passwortgeschützte PDFs: verwenden Sie -opw 'ownerpassword' oder -upw 'userpassword'.

Hinweise

  • Das Standardausgabeformat ist PPM (Farbe) oder PBM (Schwarz-Weiß). Verwenden Sie -j für JPEG, oder konvertieren Sie PPM/PBM-Dateien in andere Formate mithilfe von Tools wie convert aus ImageMagick, wenn erforderlich.
  • Die Ausgabedateien werden automatisch nummeriert und im angegebenen Verzeichnis gespeichert.

Zusammenfassungstabelle

Befehlsbeispiel Beschreibung
pdfimages input.pdf image Extrahiert alle Bilder im Standardformat PPM/PBM
pdfimages -j input.pdf image Extrahiert Bilder als JPEG, wenn möglich
pdfimages -f 3 -l 5 input.pdf image Extrahiert Bilder aus den Seiten 3 bis 5
pdfimages -opw 'password' -j input.pdf image Extrahiert Bilder aus einem PDF mit Besitzer-Passwort

Dieser Ansatz ist effizient und funktioniert für die meisten PDFs, die eingebettete Bilder enthalten. Aber:

  • pdfimages extrahiert Bilder nur in ihrer ursprünglichen Auflösung.
  • Um die Ausgabebildauflösung zu kontrollieren, verwenden Sie einen PDF-Renderer wie PyMuPDF und geben Sie die gewünschte DPI an, wenn das Bild erstellt wird.

Wie man Bilder aus einem PDF mit einer bestimmten Auflösung speichert.

Sie können die Auflösung der extrahierten Bilder nicht festlegen, wenn Sie pdfimages verwenden, da dieses Tool eingebettete Bilder in ihrem ursprünglichen Format und ihrer ursprünglichen Auflösung extrahiert, ohne Resampling oder Qualität zu verändern. Die Auflösung wird durch die Art und Weise festgelegt, wie die Bilder im PDF gespeichert wurden, und pdfimages bietet keine Option, um während der Extraktion zu vergrößern oder zu verkleinern.

Wenn Sie Bilder mit einer bestimmten Auflösung extrahieren möchten (z. B. eine Seite oder einen Teil einer Seite als Bild mit einer gewählten DPI darzustellen), müssen Sie eine PDF-Rendering-Bibliothek oder ein Werkzeug wie PyMuPDF (fitz) verwenden. Mit PyMuPDF können Sie die gewünschte Auflösung mithilfe des dpi-Parameters festlegen, wenn Sie eine Seite in ein Bild rendern:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0)  # erste Seite
pix = page.get_pixmap(dpi=300)  # rendern mit 300 DPI
pix.save("output.png")

Dieser Ansatz erstellt ein gerasterisiertes Bild der Seite mit der angegebenen DPI, anstatt die ursprünglichen eingebetteten Bilder zu extrahieren.

Andere Tools, die Bilder aus PDFs extrahieren

Die beste Software, um Bilder aus PDFs zu extrahieren, ohne die Auflösung zu verlieren, sind diejenigen, die die ursprünglich eingebetteten Bilder direkt extrahieren, anstatt sie zu rendern oder zu resampeln. Zu den besten Optionen gehören:

  • Adobe Acrobat Pro: Bietet eine dedizierte „Alle Bilder exportieren“-Funktion, die Bilder in ihrer ursprünglichen Qualität und Form als separate Dateien extrahiert. Dieser Ansatz ist sehr zuverlässig und bewahrt die exakte Auflösung und Qualität der Bilder, wie sie im PDF gespeichert sind.

  • pdfimages (aus der XPDF/Poppler-Suite): Ein kostenloses, Open-Source-Command-Line-Tool, das auf Linux und anderen Plattformen verfügbar ist. pdfimages extrahiert alle Bilder aus einem PDF in ihrem ursprünglichen Format und ihrer ursprünglichen Auflösung, einschließlich Unterstützung für JPEG, JPEG2000 und andere Formate. Es wird häufig empfohlen, wenn Sie eine kostengünstige, hochwertige Extraktionsmethode suchen.

  • Online-Tools (z. B. PDF24 Tools, PDFCandy, pdfforge): Diese Dienste ermöglichen es Ihnen, eine PDF hochzuladen und die extrahierten Bilder herunterzuladen, wobei die ursprüngliche Auflösung beibehalten wird. Sie sind für schnelle Aufgaben bequem und erfordern keine Installation, können aber bei sensiblen Dokumenten Datenschutzbedenken aufwerfen.

Zusammenfassungstabelle

Software/Tool Plattform Erhält ursprüngliche Auflösung Hinweise
Adobe Acrobat Pro Windows/Mac Ja Bezahlbar, professionell, sehr zuverlässig
pdfimages (Poppler) Linux/Windows Ja Kostenlos, Open-Source, Kommandozeilen-Utility
PDF24 Tools, PDFCandy Web-basiert Ja Kostenlos, einfach zu verwenden, Datenschutzbedenken

Hauptpunkt:
Verwenden Sie immer Tools, die extrahieren (nicht rendern oder screenshoten) die Bilder. Sowohl Adobe Acrobat Pro als auch pdfimages sind Branchenstandards für diesen Zweck, wodurch die Bilder genau so gespeichert werden, wie sie im PDF existieren, ohne Verlust der Auflösung.

pdfutils Kommandozeilenoptionen

Wenn Sie pdfimages /help ausführen, wird etwas wie Folgendes ausgegeben:

$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : erste Seite zum Konvertieren
  -l <int>       : letzte Seite zum Konvertieren
  -png           : ändert das Standardausgabeformat auf PNG
  -tiff          : ändert das Standardausgabeformat auf TIFF
  -j             : JPEG-Bilder als JPEG-Dateien schreiben
  -jp2           : JPEG2000-Bilder als JP2-Dateien schreiben
  -jbig2         : JBIG2-Bilder als JBIG2-Dateien schreiben
  -ccitt         : CCITT-Bilder als CCITT-Dateien schreiben
  -all           : gleichbedeutend mit -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : Liste der Bilder ausgeben, anstatt sie zu speichern
  -opw <string>  : Besitzerpasswort (für verschlüsselte Dateien)
  -upw <string>  : Benutzerpasswort (für verschlüsselte Dateien)
  -p             : Seitennummern in die Ausgabedateinamen einfügen
  -q             : keine Nachrichten oder Fehler ausgeben
  -v             : Copyright- und Versionsinformationen ausgeben
  -h             : Verwendungsinformationen ausgeben
  -help          : Verwendungsinformationen ausgeben
  --help         : Verwendungsinformationen ausgeben
  -?             : Verwendungsinformationen ausgeben