Pesquisar neste blog:

20/02/2022

Extrair texto de arquivo PDF pelo Prompt de Comando (CMD) usando o APACHE PDFBox.

Para rodar o programa APACHE PDFBox  é necessário o "Java" instalado em sua máquina. Verifique se o seu computador possui o referido programa, para isso basta abrir o Prompt de Comando (CMD) e digitar "java -version"

Comando "java -version"

Caso o seu PC não possua o Java,  instale a versão apropriada para o seu sistema operacional em https://www.java.com/pt-BR/download/ .

No site de download do APACHE PDFBox escolha a versão desejada do PDFBox . Neste post utilizaremos a versão "pdfbox-app-2.0.25.jar"

Download de "pdfbox-app-2.0.25.jar"

Escolha uma pasta para gravar o arquivo "pdfbox-app-2.0.25.jar", por exemplo a pasta "Convert" em seu desktop. No meu caso "C:\Users\vanin\Desktop\Convert". Abra o Prompt de Comando (CMD) novamente e acesse a pasta "Convert" com o comando "cd C:\Users\vanin\Desktop\Convert".
Comando "cd caminho da pasta Convert" ou outro de sua preferência.

Suponhamos que o PDF que você pretende converter esteja na mesma pasta "Convert" com o nome "MeuPDF.pdf" se digitar "dir" será listado os arquivos deste diretório, conforme a figura a seguir:

Comando "dir" para verificar os arquivos presentes na pasta.

Para converter o "MeuPDF.pdf" para "MeuPDFconvertido.txt" basta executar o seguinte comando: 

 java -jar pdfbox-app-2.0.25.jar ExtractText MeuPDF.pdf MeuPDFconvertido.txt

Comando "java -jar pdfbox-app-2.0.25.jar ExtractText MeuPDF.pdf MeuPDFconvertido.txt"

O comando acima criará, na mesma pasta, o arquivo "MeuPDFconvertido.txt" digite "start MeuPDFconvertido.txt" para observar o resultado da extração.
Comando "start MeuPDFconvertido.txt" para abrir o arquivo resultante.

Além da extração, o APACHE PDFBox possui outros comandos para dividir o pdf, agrupar, extrair as imagens, converter em imagem entre outros. Explicações podem ser acessadas em: https://pdfbox.apache.org/2.0/commandline.html.

Nenhum comentário:

Postar um comentário

SIGA-NOS