Extrair imagens de PDFs com o poppler

Quando você precisa extrair uma imagem de um arquivo PDF

Conteúdo da página

Às vezes, há uma necessidade real de salvar imagens de um PDF sem fazer capturas de tela ou renderizar o PDF na tela. O pdfimages ajuda nisso.

Este guia faz parte do nosso hub Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF & Fluxos de Trabalho de Impressão.

Uma imagem em estilo quadrinhos de um homem tirando uma foto do diagrama na tela

Para extrair imagens de um arquivo PDF no Linux, a ferramenta mais comum e eficaz é o utilitário de linha de comando pdfimages, que faz parte do pacote poppler-utils.

Usando o utilitário pdfimages no Linux: Instruções Passo a Passo

1. Instalar o pdfimages (se ainda não estiver instalado):

A maioria das distribuições Linux inclui o pdfimages por padrão. Se necessário, instale-o usando seu gerenciador de pacotes:

sudo apt-get install poppler-utils

ou para o Fedora:

sudo dnf install poppler-utils

2. Abrir um Terminal:

Pressione Ctrl + Alt + T para abrir uma janela de terminal.

3. Executar pdfimages para Extrair Imagens:

Sintaxe básica:

pdfimages  

Exemplo:

pdfimages /caminho/para/arquivo.pdf /caminho/para/saida/imagem
  • Isso extrairá todas as imagens de arquivo.pdf e as salvará como imagem-000.ppm, imagem-001.ppm, etc., no diretório de saída especificado.

4. Extrair Imagens como JPEG (se desejado):

Para extrair imagens no formato JPEG (quando possível), use a opção -j:

pdfimages -j /caminho/para/arquivo.pdf /caminho/para/saida/imagem
  • Isso salvará as imagens JPEG como arquivos .jpg.

5. Extrair Imagens de Páginas Específicas:

  • Para extrair imagens de um intervalo de páginas, use -f (primeira página) e -l (última página):
pdfimages -f 2 -l 5 -j /caminho/para/arquivo.pdf /caminho/para/saida/imagem
  • Isso extrai imagens das páginas 2 a 5.

6. Opções Adicionais:

  • Para extrair imagens como PNG: use -png (se suportado pela sua versão).
  • Para PDFs protegidos por senha, use -opw 'senhadoproprietario' ou -upw 'senhausuario'.

Notas

  • O formato de saída padrão é PPM (colorido) ou PBM (monocromático). Use -j para JPEG ou converta arquivos PPM/PBM para outros formatos usando ferramentas como convert do ImageMagick, se necessário.
  • Os arquivos de saída são numerados automaticamente e salvos no diretório especificado.

Tabela de Resumo

Exemplo de Comando Descrição
pdfimages input.pdf imagem Extrai todas as imagens no formato PPM/PBM padrão
pdfimages -j input.pdf imagem Extrai imagens como JPEG quando possível
pdfimages -f 3 -l 5 input.pdf imagem Extrai imagens das páginas 3 a 5
pdfimages -opw 'senha' -j input.pdf imagem Extrai imagens de um PDF protegido por senha de proprietário

Este método é eficiente e funciona para a maioria dos PDFs contendo imagens incorporadas. Mas:

  • pdfimages extrai imagens apenas na sua resolução original.
  • Para controlar a resolução de saída, use um renderizador de PDF como PyMuPDF e especifique o DPI desejado ao criar a imagem.

Como salvar imagens de PDF com resolução específica.

Você não pode especificar a resolução das imagens extraídas ao usar o pdfimages, porque esta ferramenta extrai imagens incorporadas em seu formato e resolução originais, sem reamostragem ou alteração de qualidade. A resolução é determinada por como as imagens foram armazenadas no PDF, e o pdfimages não oferece uma opção para aumentar ou diminuir a escala durante a extração.

Se você deseja extrair imagens em uma resolução específica (por exemplo, renderizar uma página ou uma parte de uma página como uma imagem em um DPI escolhido), você precisa usar uma biblioteca ou ferramenta de renderização de PDF, como o PyMuPDF (fitz). Com o PyMuPDF, você pode especificar a resolução desejada usando o parâmetro dpi ao renderizar uma página em uma imagem:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0)  # primeira página
pix = page.get_pixmap(dpi=300)  # renderizar em 300 DPI
pix.save("output.png")

Esta abordagem cria uma imagem rasterizada da página no DPI especificado, em vez de extrair as imagens incorporadas originais.

Outras ferramentas para extrair imagens de PDFs

Os melhores softwares para extrair imagens de PDFs sem perder a resolução são aqueles que extraem as imagens incorporadas originais diretamente, em vez de renderizá-las ou reamostrá-las. As principais opções incluem:

  • Adobe Acrobat Pro: Oferece um recurso dedicado “Exportar Todas as Imagens”, que extrai imagens em sua qualidade e formato originais como arquivos independentes. Este método é altamente confiável e preserva a resolução e qualidade exatas das imagens conforme armazenadas no PDF.

  • pdfimages (da suíte XPDF/Poppler): Uma ferramenta de linha de comando gratuita e de código aberto disponível no Linux e outras plataformas. O pdfimages extrai todas as imagens de um PDF em seu formato e resolução nativos, incluindo suporte para JPEG, JPEG2000 e outros formatos. É amplamente recomendado para usuários que buscam um processo de extração de alta fidelidade e sem custos.

  • Ferramentas online (ex: PDF24 Tools, PDFCandy, pdfforge): Estes serviços permitem que você faça upload de um PDF e baixe as imagens extraídas, mantendo a resolução original. São convenientes para tarefas rápidas e não requerem instalação, mas podem levantar preocupações de privacidade para documentos sensíveis.

Tabela de Resumo

Software/Ferramenta Plataforma Mantém a Resolução Original Notas
Adobe Acrobat Pro Windows/Mac Sim Pago, nível profissional, muito confiável
pdfimages (Poppler) Linux/Windows Sim Gratuito, código aberto, utilitário de linha de comando
PDF24 Tools, PDFCandy Baseado na Web Sim Gratuito, fácil de usar, considerações de privacidade

Ponto Chave:
Sempre use ferramentas que extraiam (não renderizem ou façam capturas de tela) as imagens. Tanto o Adobe Acrobat Pro quanto o pdfimages são padrões da indústria para este propósito, garantindo que as imagens sejam salvas exatamente como existem no PDF, sem qualquer perda de resolução.

Opções de linha de comando do pdfutils

Ao executar pdfimages /help, ele imprimirá algo como:

$ pdfimages /help
pdfimages versão 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Uso: pdfimages [opções] <arquivo-PDF> <raiz-da-imagem>
  -f <int>       : primeira página a converter
  -l <int>       : última página a converter
  -png           : mudar o formato de saída padrão para PNG
  -tiff          : mudar o formato de saída padrão para TIFF
  -j             : escrever imagens JPEG como arquivos JPEG
  -jp2           : escrever imagens JPEG2000 como arquivos JP2
  -jbig2         : escrever imagens JBIG2 como arquivos JBIG2
  -ccitt         : escrever imagens CCITT como arquivos CCITT
  -all           : equivalente a -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : imprimir lista de imagens em vez de salvar
  -opw <string>  : senha de proprietário (para arquivos criptografados)
  -upw <string>  : senha de usuário (para arquivos criptografados)
  -p             : incluir números de página nos nomes dos arquivos de saída
  -q             : não imprimir mensagens ou erros
  -v             : imprimir informações de copyright e versão
  -h             : imprimir informações de uso
  -help          : imprimir informações de uso
  --help         : imprimir informações de uso
  -?             : imprimir informações de uso

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.