O node PDF Parse está localizado na categoria Nodes Parser. Este node é utilizado para extrair texto de um arquivo PDF.
No vídeo a seguir, explicamos os parâmetros para configurá-lo:
Abaixo, você encontra a descrição dos campos que utilizará no processo, como mostrado no vídeo
- Nome (opcional): nome do node; aqui você pode alterar o valor padrão.
- Base 64 string: você deverá incorporar o arquivo PDF em formato de texto plano base64.
- Output path: nome da variável onde o texto analisado será armazenado.
Adicionalmente, no resultado do node, você encontrará os seguintes parâmetros de saída:
- numpages: a quantidade de páginas do PDF.
- numrender: a quantidade de páginas renderizadas do PDF.
- info: informações complementares do PDF (título, autor, data de criação, etc.).
- metadata
- version: versão do PDF.js (a biblioteca que executa o parsing).
- text: o texto extraído do PDF.
Baixe o fluxo com o exemplo neste link.
Tenha em mente:
Se você usar o exemplo, adicione um node Inject antes do node PDF Parse, que deverá conter o arquivo codificado em base64.