Question 1

Os meus ficheiros são enviados para um servidor?

Accepted Answer

Não. A extração de texto corre inteiramente dentro do teu navegador usando o pdf.js. O teu PDF é lido a partir do teu disco local e processado em memória, e o texto resultante nunca sai do teu dispositivo. Isto torna seguro extrair texto de contratos confidenciais, investigação e documentos internos sem qualquer exposição na nuvem.

Question 2

Porque é que um PDF digitalizado devolve pouco texto ou nenhum?

Accepted Answer

Um documento digitalizado é feito de imagens de páginas, não de caracteres guardados. Esta ferramenta extrai a camada de texto que está efetivamente presente no ficheiro, por isso se não houver camada de texto não há nada para ler. Para obter texto de uma digitalização precisas de reconhecimento ótico de caracteres (OCR), que reconhece as letras a partir dos pixeis da imagem e é um processo separado da extração direta efetuada aqui.

Question 3

Como é que o texto extraído está organizado?

Accepted Answer

A ferramenta processa o documento uma página de cada vez, juntando os fragmentos individuais de texto de cada página com espaços e separando depois as páginas consecutivas com uma linha em branco. Isto mantém o resultado legível e segue, em traços largos, a ordem de leitura do original. As disposições complexas de várias colunas podem nem sempre ser extraídas numa ordem visual perfeita, uma vez que os PDF guardam o texto por posição e não por fluxo lógico.

Question 4

Posso copiar o texto ou guardá-lo num ficheiro?

Accepted Answer

Sim. Assim que a extração termina, um botão Copiar coloca todo o texto na tua área de transferência, e um botão Descarregar .txt guarda-o como um ficheiro de texto simples com o nome do teu PDF. A própria caixa de texto é só de leitura, o que evita edições acidentais sem deixar de te permitir selecionar manualmente qualquer parte, se preferires.

Question 5

Preserva a formatação, como negrito, tabelas ou colunas?

Accepted Answer

Não. O resultado é texto simples, por isso estilos como negrito, itálico, tamanhos de letra e cores não são preservados. As tabelas e as disposições de várias colunas são achatadas num fluxo de palavras, porque um PDF guarda os caracteres pela sua posição na página e não como um modelo estruturado de tabela ou coluna. O objetivo é um texto limpo e reutilizável, e não uma cópia visual.

Question 6

Qual é o tamanho de ficheiro ou o número de páginas máximo?

Accepted Answer

Não há um limite fixo integrado na ferramenta. Os documentos muito grandes com centenas de páginas demoram mais e usam mais memória, uma vez que cada página é processada à vez e o texto completo é mantido no navegador. Num computador de secretária moderno, os documentos de várias centenas de páginas extraem-se com conforto; em dispositivos com pouca memória, os ficheiros muito grandes podem ser lentos.

Question 7

Funciona com PDF protegidos por palavra-passe?

Accepted Answer

Os PDF que exigem uma palavra-passe para abrir, em geral, não podem ser lidos sem ela. Os ficheiros protegidos apenas por uma palavra-passe de proprietário (permissões) que restringe a cópia podem continuar a ser legíveis consoante o modo de cifragem, embora devas garantir sempre que tens o direito de extrair texto do documento.

Question 8

Lida com texto que não está em inglês e com caracteres especiais?

Accepted Answer

Sim, na maioria dos casos. O pdf.js lê os dados de caracteres e os mapeamentos Unicode guardados no PDF, por isso o texto latino com acentos, e muitas outras escritas, extraem-se corretamente quando o ficheiro incorpora mapeamentos de caracteres adequados. Alguns PDF com tipos de letra personalizados ou de subconjunto que não têm um mapeamento fiável podem produzir caracteres ininteligíveis, o que é uma limitação do ficheiro de origem e não da ferramenta.

Question 9

Posso extrair texto de muitos PDF ao mesmo tempo?

Accepted Answer

A interface do navegador processa um ficheiro de cada vez. Para extração em massa, o pdf.js está disponível como pacote de npm e pode ser programado em Node.js para extrair texto de centenas de ficheiros automaticamente. A lógica de extração é a mesma abordagem usada aqui: chamar o conteúdo de texto de cada página e juntar os fragmentos.

Extrair texto de um PDF

Perguntas frequentes

Sobre Extrair texto de um PDF

Porque é que tirar o texto de um PDF é mais difícil do que parece

Extrair texto de um PDF

Perguntas frequentes

Sobre Extrair texto de um PDF

Porque é que tirar o texto de um PDF é mais difícil do que parece

Ferramentas relacionadas

PDF para Imagens (PNG / JPG)

Dividir PDF, Extrair ou Separar Páginas