BrowserTools
Publicidade
Início / PDF / Extrair texto de um PDF

Extrair texto de um PDF

Extrai todo o texto selecionável de um PDF para texto simples que podes copiar ou descarregar, localmente no teu navegador.

A carregar Extrair texto de um PDF… Se nada acontecer, ativa o JavaScript.

Extrair texto de um PDF significa ler os caracteres guardados no documento e devolvê-los como texto simples e editável. É uma das operações mais frequentemente necessárias em qualquer fluxo de trabalho com documentos. Podes querer citar uma passagem de um relatório, alimentar o conteúdo de um artigo a um índice de pesquisa, reaproveitar o texto de um folheto antigo, contar palavras ou, simplesmente, obter texto limpo de um ficheiro que não permite uma seleção fácil no teu visualizador habitual. Em vez de voltar a escrever fosse o que fosse, deixas a ferramenta percorrer o documento e entregar-te tudo o que consegue ler.

Perguntas frequentes

Os meus ficheiros são enviados para um servidor?
Não. A extração de texto corre inteiramente dentro do teu navegador usando o pdf.js. O teu PDF é lido a partir do teu disco local e processado em memória, e o texto resultante nunca sai do teu dispositivo. Isto torna seguro extrair texto de contratos confidenciais, investigação e documentos internos sem qualquer exposição na nuvem.
Porque é que um PDF digitalizado devolve pouco texto ou nenhum?
Um documento digitalizado é feito de imagens de páginas, não de caracteres guardados. Esta ferramenta extrai a camada de texto que está efetivamente presente no ficheiro, por isso se não houver camada de texto não há nada para ler. Para obter texto de uma digitalização precisas de reconhecimento ótico de caracteres (OCR), que reconhece as letras a partir dos pixeis da imagem e é um processo separado da extração direta efetuada aqui.
Como é que o texto extraído está organizado?
A ferramenta processa o documento uma página de cada vez, juntando os fragmentos individuais de texto de cada página com espaços e separando depois as páginas consecutivas com uma linha em branco. Isto mantém o resultado legível e segue, em traços largos, a ordem de leitura do original. As disposições complexas de várias colunas podem nem sempre ser extraídas numa ordem visual perfeita, uma vez que os PDF guardam o texto por posição e não por fluxo lógico.
Posso copiar o texto ou guardá-lo num ficheiro?
Sim. Assim que a extração termina, um botão Copiar coloca todo o texto na tua área de transferência, e um botão Descarregar .txt guarda-o como um ficheiro de texto simples com o nome do teu PDF. A própria caixa de texto é só de leitura, o que evita edições acidentais sem deixar de te permitir selecionar manualmente qualquer parte, se preferires.
Preserva a formatação, como negrito, tabelas ou colunas?
Não. O resultado é texto simples, por isso estilos como negrito, itálico, tamanhos de letra e cores não são preservados. As tabelas e as disposições de várias colunas são achatadas num fluxo de palavras, porque um PDF guarda os caracteres pela sua posição na página e não como um modelo estruturado de tabela ou coluna. O objetivo é um texto limpo e reutilizável, e não uma cópia visual.
Qual é o tamanho de ficheiro ou o número de páginas máximo?
Não há um limite fixo integrado na ferramenta. Os documentos muito grandes com centenas de páginas demoram mais e usam mais memória, uma vez que cada página é processada à vez e o texto completo é mantido no navegador. Num computador de secretária moderno, os documentos de várias centenas de páginas extraem-se com conforto; em dispositivos com pouca memória, os ficheiros muito grandes podem ser lentos.
Funciona com PDF protegidos por palavra-passe?
Os PDF que exigem uma palavra-passe para abrir, em geral, não podem ser lidos sem ela. Os ficheiros protegidos apenas por uma palavra-passe de proprietário (permissões) que restringe a cópia podem continuar a ser legíveis consoante o modo de cifragem, embora devas garantir sempre que tens o direito de extrair texto do documento.
Lida com texto que não está em inglês e com caracteres especiais?
Sim, na maioria dos casos. O pdf.js lê os dados de caracteres e os mapeamentos Unicode guardados no PDF, por isso o texto latino com acentos, e muitas outras escritas, extraem-se corretamente quando o ficheiro incorpora mapeamentos de caracteres adequados. Alguns PDF com tipos de letra personalizados ou de subconjunto que não têm um mapeamento fiável podem produzir caracteres ininteligíveis, o que é uma limitação do ficheiro de origem e não da ferramenta.
Posso extrair texto de muitos PDF ao mesmo tempo?
A interface do navegador processa um ficheiro de cada vez. Para extração em massa, o pdf.js está disponível como pacote de npm e pode ser programado em Node.js para extrair texto de centenas de ficheiros automaticamente. A lógica de extração é a mesma abordagem usada aqui: chamar o conteúdo de texto de cada página e juntar os fragmentos.

Sobre Extrair texto de um PDF

Esta ferramenta usa o pdf.js, o mesmo motor que faz a visualização de PDF nos navegadores modernos, a correr inteiramente no teu dispositivo. Para cada página pede o conteúdo de texto e junta os fragmentos individuais com espaços, separando depois as páginas com linhas em branco para que o resultado se mantenha legível e reflita, em traços largos, a disposição do original. O resultado aparece numa caixa de texto só de leitura, juntamente com o número de páginas, e podes copiar tudo para a área de transferência com um clique ou descarregá-lo como um ficheiro .txt pronto a abrir em qualquer editor.

Tudo acontece no teu navegador, sem que nada seja enviado. O PDF é lido a partir do teu disco local e processado em memória, o que mantém contratos privados, investigação e documentos internos fora de qualquer servidor de terceiros. Uma limitação importante a perceber é que esta ferramenta lê o texto que está efetivamente guardado como texto no ficheiro. Um documento digitalizado ou uma foto guardada como PDF contém apenas imagens de palavras, sem dados de caracteres subjacentes, por isso devolverá pouco texto ou nenhum. Para esses ficheiros precisarias de reconhecimento ótico de caracteres, que reconhece as letras a partir dos pixeis, um processo diferente da extração direta efetuada aqui.

Porque é que tirar o texto de um PDF é mais difícil do que parece

Um PDF não guarda o texto da forma como um documento de processador de texto o faz. Em vez de frases e parágrafos, guarda instruções de desenho que dizem, na prática, coloca este glifo nesta coordenada exata da página. Muitas vezes não há um caractere de espaço explícito entre as palavras nem noção de onde termina uma linha, coluna ou parágrafo e começa o seguinte. O software de extração tem de reconstruir um texto legível observando as posições dos glifos, inferindo os espaços a partir das lacunas entre eles e deduzindo a ordem de leitura a partir das suas coordenadas. É por isso que o texto retirado de uma disposição complexa pode, por vezes, chegar com as palavras numa ordem inesperada ou com um espaçamento que não corresponde ao que viste no ecrã.

A situação complica-se ainda mais por causa dos tipos de letra. Cada tipo de letra de um PDF mapeia os códigos do fluxo de conteúdo para formas de glifos, mas a ligação de volta de um glifo ao seu caractere Unicode real é opcional e é transportada numa estrutura chamada mapa ToUnicode. Quando esse mapa está presente, a extração é limpa. Quando um PDF usa um tipo de letra de subconjunto ou personalizado e omite ou estraga o mapa, o resultado extraído pode ser ininteligível mesmo que a página pareça perfeita, porque o visualizador sabe como desenhar as formas mas o ficheiro nunca registou que caracteres elas representam.

Depois há a grande divisão entre texto verdadeiro e imagens de texto. Por todo o mundo, uma enorme parte dos PDF são digitalizações: fotografias ou imagens de digitalizador de mesa de papel, embrulhadas num contentor PDF. Para um humano parecem idênticas a um documento de origem digital, mas não contêm qualquer dado de caracteres, apenas pixeis. Lê-los exige reconhecimento ótico de caracteres, um campo com raízes que recuam às décadas de 1920 e 1930 e a dispositivos construídos para ajudar leitores cegos e para separar o correio. O OCR moderno usa aprendizagem automática para alcançar uma elevada precisão em muitos idiomas, mas continua a ser uma tarefa fundamentalmente diferente e mais propensa a erros do que simplesmente ler o texto que um PDF digital já contém, que é exatamente o que esta ferramenta faz.

Publicidade
Publicidade
Publicidade