BrowserTools
Publicité
Accueil / PDF / Extraire le texte d'un PDF

Extraire le texte d'un PDF

Extrayez tout le texte sélectionnable d'un PDF en texte brut que vous pouvez copier ou télécharger, localement dans votre navigateur.

Chargement de Extraire le texte d'un PDF… Si rien ne se passe, activez JavaScript.

Extraire le texte d'un PDF consiste à lire les caractères stockés dans le document et à les restituer sous forme de texte brut et modifiable. C'est l'une des opérations les plus fréquemment nécessaires dans tout flux de travail documentaire. Vous pourriez vouloir citer un passage d'un rapport, alimenter le contenu d'un article dans un index de recherche, réutiliser le texte d'une vieille brochure, compter des mots ou simplement obtenir un texte propre à partir d'un fichier qui n'autorise pas une sélection facile dans votre lecteur habituel. Plutôt que de tout retaper, vous laissez l'outil parcourir le document et vous remettre tout ce qu'il peut lire.

Questions fréquentes

Mes fichiers sont-ils envoyés vers un serveur ?
Non. L'extraction de texte s'exécute entièrement à l'intérieur de votre navigateur à l'aide de pdf.js. Votre PDF est lu depuis votre disque local et traité en mémoire, et le texte obtenu ne quitte jamais votre appareil. Cela rend sûre l'extraction de texte à partir de contrats confidentiels, de travaux de recherche et de documents internes, sans aucune exposition dans le cloud.
Pourquoi un PDF numérisé renvoie-t-il peu de texte, voire aucun ?
Un document numérisé est composé d'images de pages, et non de caractères stockés. Cet outil extrait la couche de texte réellement présente dans le fichier ; s'il n'y a pas de couche de texte, il n'y a donc rien à lire. Pour obtenir du texte à partir d'une numérisation, vous avez besoin de la reconnaissance optique de caractères (OCR), qui reconnaît les lettres à partir des pixels de l'image et constitue un processus distinct de l'extraction directe effectuée ici.
Comment le texte extrait est-il organisé ?
L'outil traite le document page par page, en assemblant les fragments de texte individuels de chaque page avec des espaces, puis en séparant les pages consécutives par une ligne vide. Cela garde la sortie lisible et suit approximativement l'ordre de lecture de l'original. Les mises en page complexes à plusieurs colonnes ne s'extraient pas toujours dans un ordre visuel parfait, car les PDF stockent le texte par position plutôt que par flux logique.
Puis-je copier le texte ou l'enregistrer dans un fichier ?
Oui. Une fois l'extraction terminée, un bouton Copier place l'intégralité du texte dans votre presse-papiers, et un bouton Télécharger .txt l'enregistre sous forme de fichier texte brut nommé d'après votre PDF. La zone de texte elle-même est en lecture seule, ce qui empêche les modifications accidentelles tout en vous permettant de sélectionner manuellement n'importe quelle partie si vous le préférez.
Préserve-t-il la mise en forme comme le gras, les tableaux ou les colonnes ?
Non. La sortie est du texte brut, donc les styles tels que le gras, l'italique, les tailles de police et les couleurs ne sont pas préservés. Les tableaux et les mises en page à plusieurs colonnes sont aplatis en un flux de mots, car un PDF stocke les caractères selon leur position sur la page plutôt que sous forme de modèle structuré de tableau ou de colonne. L'objectif est un texte propre et réutilisable plutôt qu'une copie visuelle.
Quelle est la taille de fichier ou le nombre de pages maximum ?
Aucune limite stricte n'est intégrée à l'outil. Les très gros documents de plusieurs centaines de pages prendront plus de temps et utiliseront plus de mémoire, puisque chaque page est traitée à tour de rôle et que le texte intégral est conservé dans le navigateur. Sur un ordinateur de bureau moderne, des documents de plusieurs centaines de pages s'extraient confortablement ; sur les appareils à faible mémoire, les très gros fichiers peuvent être lents.
Cela fonctionne-t-il avec les PDF protégés par mot de passe ?
Les PDF qui nécessitent un mot de passe pour s'ouvrir ne peuvent généralement pas être lus sans celui-ci. Les fichiers protégés uniquement par un mot de passe de propriétaire (permissions) qui restreint la copie peuvent rester lisibles selon le mode de chiffrement, même si vous devez toujours vous assurer que vous avez le droit d'extraire le texte du document.
Gère-t-il le texte non anglophone et les caractères spéciaux ?
Oui, dans la plupart des cas. pdf.js lit les données de caractères et les correspondances Unicode stockées dans le PDF, de sorte que le texte latin accentué, et de nombreuses autres écritures, s'extraient correctement lorsque le fichier intègre des correspondances de caractères appropriées. Certains PDF avec des polices personnalisées ou en sous-ensemble dépourvues d'une correspondance fiable peuvent produire des caractères illisibles, ce qui est une limite du fichier source plutôt que de l'outil.
Puis-je extraire le texte de plusieurs PDF à la fois ?
L'interface du navigateur traite un fichier à la fois. Pour une extraction en masse, pdf.js est disponible sous forme de paquet npm et peut être scripté dans Node.js pour extraire automatiquement le texte de centaines de fichiers. La logique d'extraction repose sur la même approche que celle utilisée ici : appeler le contenu textuel de chaque page et assembler les fragments.

À propos de Extraire le texte d'un PDF

Cet outil utilise pdf.js, le même moteur qui assure l'affichage des PDF dans les navigateurs modernes, en s'exécutant entièrement sur votre appareil. Pour chaque page, il demande le contenu textuel et assemble les fragments de texte individuels avec des espaces, puis sépare les pages par des lignes vides afin que la sortie reste lisible et reproduise approximativement la disposition de l'original. Le résultat apparaît dans une zone de texte en lecture seule accompagnée du nombre de pages, et vous pouvez tout copier dans votre presse-papiers d'un clic ou le télécharger sous forme de fichier .txt prêt à être ouvert dans n'importe quel éditeur.

Tout se passe dans votre navigateur, sans aucun envoi. Le PDF est lu depuis votre disque local et traité en mémoire, ce qui garde les contrats privés, les travaux de recherche et les documents internes à l'écart de tout serveur tiers. Une limite importante à comprendre est que cet outil lit le texte qui est réellement stocké sous forme de texte dans le fichier. Un document numérisé ou une photo enregistrée en PDF ne contient que des images de mots, sans données de caractères sous-jacentes, il renverra donc peu de texte, voire aucun. Pour ces fichiers, vous auriez besoin de la reconnaissance optique de caractères, qui reconnaît les lettres à partir des pixels, un processus différent de l'extraction directe effectuée ici.

Pourquoi extraire le texte d'un PDF est plus difficile qu'il n'y paraît

Un PDF ne stocke pas le texte comme le fait un document de traitement de texte. Au lieu de phrases et de paragraphes, il stocke des instructions de dessin qui disent, en somme, place ce glyphe à cette coordonnée précise sur la page. Il n'y a souvent pas de caractère d'espace explicite entre les mots ni de notion de l'endroit où une ligne, une colonne ou un paragraphe se termine et où le suivant commence. Le logiciel d'extraction doit reconstruire un texte lisible en examinant les positions des glyphes, en déduisant les espaces à partir des écarts entre eux et en devinant l'ordre de lecture d'après leurs coordonnées. C'est pourquoi le texte tiré d'une mise en page complexe peut parfois arriver avec des mots dans un ordre inattendu ou avec un espacement qui ne correspond pas à ce que vous avez vu à l'écran.

La situation se complique encore avec les polices. Chaque police d'un PDF associe les codes du flux de contenu à des formes de glyphes, mais le lien de retour d'un glyphe vers son véritable caractère Unicode est facultatif et porté par une structure appelée table ToUnicode. Lorsque cette table est présente, l'extraction est propre. Lorsqu'un PDF utilise une police en sous-ensemble ou personnalisée et omet ou altère la table, la sortie extraite peut être incompréhensible alors même que la page paraît parfaite, car le lecteur sait dessiner les formes mais le fichier n'a jamais enregistré quels caractères elles représentent.

Vient ensuite la grande distinction entre le vrai texte et les images de texte. Partout dans le monde, une part énorme des PDF sont des numérisations : des photographies ou des images de scanner à plat de feuilles de papier, enveloppées dans un conteneur PDF. Pour un être humain, elles paraissent identiques à un document né numérique, mais elles ne contiennent aucune donnée de caractères, seulement des pixels. Les lire nécessite la reconnaissance optique de caractères, un domaine dont les racines remontent aux années 1920 et 1930 et à des appareils conçus pour aider les lecteurs aveugles et pour trier le courrier. L'OCR moderne utilise l'apprentissage automatique pour atteindre une grande précision dans de nombreuses langues, mais il reste une tâche fondamentalement différente et plus sujette aux erreurs que la simple lecture du texte qu'un PDF numérique contient déjà, ce qui est exactement ce que fait cet outil.

Publicité
Publicité
Publicité