Extraire le texte d'un PDF
Extrayez tout le texte sélectionnable d'un PDF en texte brut que vous pouvez copier ou télécharger, localement dans votre navigateur.
Chargement de Extraire le texte d'un PDF… Si rien ne se passe, activez JavaScript.
Extraire le texte d'un PDF consiste à lire les caractères stockés dans le document et à les restituer sous forme de texte brut et modifiable. C'est l'une des opérations les plus fréquemment nécessaires dans tout flux de travail documentaire. Vous pourriez vouloir citer un passage d'un rapport, alimenter le contenu d'un article dans un index de recherche, réutiliser le texte d'une vieille brochure, compter des mots ou simplement obtenir un texte propre à partir d'un fichier qui n'autorise pas une sélection facile dans votre lecteur habituel. Plutôt que de tout retaper, vous laissez l'outil parcourir le document et vous remettre tout ce qu'il peut lire.
Questions fréquentes
Mes fichiers sont-ils envoyés vers un serveur ?
Pourquoi un PDF numérisé renvoie-t-il peu de texte, voire aucun ?
Comment le texte extrait est-il organisé ?
Puis-je copier le texte ou l'enregistrer dans un fichier ?
Préserve-t-il la mise en forme comme le gras, les tableaux ou les colonnes ?
Quelle est la taille de fichier ou le nombre de pages maximum ?
Cela fonctionne-t-il avec les PDF protégés par mot de passe ?
Gère-t-il le texte non anglophone et les caractères spéciaux ?
Puis-je extraire le texte de plusieurs PDF à la fois ?
À propos de Extraire le texte d'un PDF
Cet outil utilise pdf.js, le même moteur qui assure l'affichage des PDF dans les navigateurs modernes, en s'exécutant entièrement sur votre appareil. Pour chaque page, il demande le contenu textuel et assemble les fragments de texte individuels avec des espaces, puis sépare les pages par des lignes vides afin que la sortie reste lisible et reproduise approximativement la disposition de l'original. Le résultat apparaît dans une zone de texte en lecture seule accompagnée du nombre de pages, et vous pouvez tout copier dans votre presse-papiers d'un clic ou le télécharger sous forme de fichier .txt prêt à être ouvert dans n'importe quel éditeur.
Tout se passe dans votre navigateur, sans aucun envoi. Le PDF est lu depuis votre disque local et traité en mémoire, ce qui garde les contrats privés, les travaux de recherche et les documents internes à l'écart de tout serveur tiers. Une limite importante à comprendre est que cet outil lit le texte qui est réellement stocké sous forme de texte dans le fichier. Un document numérisé ou une photo enregistrée en PDF ne contient que des images de mots, sans données de caractères sous-jacentes, il renverra donc peu de texte, voire aucun. Pour ces fichiers, vous auriez besoin de la reconnaissance optique de caractères, qui reconnaît les lettres à partir des pixels, un processus différent de l'extraction directe effectuée ici.
Pourquoi extraire le texte d'un PDF est plus difficile qu'il n'y paraît
Un PDF ne stocke pas le texte comme le fait un document de traitement de texte. Au lieu de phrases et de paragraphes, il stocke des instructions de dessin qui disent, en somme, place ce glyphe à cette coordonnée précise sur la page. Il n'y a souvent pas de caractère d'espace explicite entre les mots ni de notion de l'endroit où une ligne, une colonne ou un paragraphe se termine et où le suivant commence. Le logiciel d'extraction doit reconstruire un texte lisible en examinant les positions des glyphes, en déduisant les espaces à partir des écarts entre eux et en devinant l'ordre de lecture d'après leurs coordonnées. C'est pourquoi le texte tiré d'une mise en page complexe peut parfois arriver avec des mots dans un ordre inattendu ou avec un espacement qui ne correspond pas à ce que vous avez vu à l'écran.
La situation se complique encore avec les polices. Chaque police d'un PDF associe les codes du flux de contenu à des formes de glyphes, mais le lien de retour d'un glyphe vers son véritable caractère Unicode est facultatif et porté par une structure appelée table ToUnicode. Lorsque cette table est présente, l'extraction est propre. Lorsqu'un PDF utilise une police en sous-ensemble ou personnalisée et omet ou altère la table, la sortie extraite peut être incompréhensible alors même que la page paraît parfaite, car le lecteur sait dessiner les formes mais le fichier n'a jamais enregistré quels caractères elles représentent.
Vient ensuite la grande distinction entre le vrai texte et les images de texte. Partout dans le monde, une part énorme des PDF sont des numérisations : des photographies ou des images de scanner à plat de feuilles de papier, enveloppées dans un conteneur PDF. Pour un être humain, elles paraissent identiques à un document né numérique, mais elles ne contiennent aucune donnée de caractères, seulement des pixels. Les lire nécessite la reconnaissance optique de caractères, un domaine dont les racines remontent aux années 1920 et 1930 et à des appareils conçus pour aider les lecteurs aveugles et pour trier le courrier. L'OCR moderne utilise l'apprentissage automatique pour atteindre une grande précision dans de nombreuses langues, mais il reste une tâche fondamentalement différente et plus sujette aux erreurs que la simple lecture du texte qu'un PDF numérique contient déjà, ce qui est exactement ce que fait cet outil.