BrowserTools
Werbung
Startseite / PDF / Text aus PDF extrahieren

Text aus PDF extrahieren

Hol allen auswählbaren Text aus einem PDF als reinen Text heraus, den du kopieren oder herunterladen kannst, lokal in deinem Browser.

Text aus PDF extrahieren wird geladen… Wenn nichts passiert, aktiviere JavaScript.

Text aus einem PDF zu extrahieren bedeutet, die im Dokument gespeicherten Zeichen zu lesen und sie als reinen, bearbeitbaren Text zurückzugeben. Es ist einer der am häufigsten benötigten Vorgänge in jedem Dokumenten-Workflow. Vielleicht möchtest du eine Passage aus einem Bericht zitieren, den Inhalt eines Papiers in einen Suchindex einspeisen, Text aus einer alten Broschüre wiederverwenden, Wörter zählen oder einfach sauberen Text aus einer Datei holen, die in deinem üblichen Betrachter keine einfache Auswahl zulässt. Statt etwas abzutippen, lässt du das Werkzeug das Dokument durchgehen und dir alles übergeben, was es lesen kann.

Häufig gestellte Fragen

Werden meine Dateien auf einen Server hochgeladen?
Nein. Die Textextraktion läuft vollständig in deinem Browser mit pdf.js. Dein PDF wird von deiner lokalen Festplatte gelesen und im Arbeitsspeicher verarbeitet, und der entstehende Text verlässt nie dein Gerät. Das macht es sicher, Text aus vertraulichen Verträgen, Forschungsarbeiten und internen Dokumenten zu extrahieren, ganz ohne Cloud-Risiko.
Warum gibt ein gescanntes PDF wenig oder gar keinen Text zurück?
Ein gescanntes Dokument besteht aus Bildern von Seiten, nicht aus gespeicherten Zeichen. Dieses Werkzeug extrahiert die Textebene, die tatsächlich in der Datei vorhanden ist, und wenn es keine Textebene gibt, gibt es nichts zu lesen. Um Text aus einem Scan zu gewinnen, brauchst du eine optische Zeichenerkennung (OCR), die Buchstaben aus den Bildpixeln erkennt und ein eigenständiger Vorgang gegenüber der hier durchgeführten direkten Extraktion ist.
Wie ist der extrahierte Text gegliedert?
Das Werkzeug verarbeitet das Dokument Seite für Seite, fügt die einzelnen Textfragmente jeder Seite mit Leerzeichen zusammen und trennt anschließend aufeinanderfolgende Seiten durch eine Leerzeile. Das hält die Ausgabe lesbar und folgt grob der Lesereihenfolge des Originals. Komplexe mehrspaltige Layouts werden nicht immer in perfekter visueller Reihenfolge extrahiert, da PDFs Text nach Position statt nach logischem Fluss speichern.
Kann ich den Text kopieren oder in einer Datei speichern?
Ja. Sobald die Extraktion abgeschlossen ist, legt eine Schaltfläche Kopieren den gesamten Text in deine Zwischenablage, und eine Schaltfläche .txt herunterladen speichert ihn als reine Textdatei, benannt nach deinem PDF. Das Textfeld selbst ist schreibgeschützt, was versehentliche Änderungen verhindert und es dir dennoch erlaubt, bei Bedarf jeden Teil manuell auszuwählen.
Bleibt die Formatierung wie Fettdruck, Tabellen oder Spalten erhalten?
Nein. Die Ausgabe ist reiner Text, daher bleiben Stilelemente wie Fettdruck, Kursiv, Schriftgrößen und Farben nicht erhalten. Tabellen und mehrspaltige Layouts werden zu einem Wortstrom abgeflacht, weil ein PDF Zeichen nach ihrer Position auf der Seite speichert und nicht als strukturiertes Tabellen- oder Spaltenmodell. Das Ziel ist sauberer, wiederverwendbarer Text statt einer optischen Kopie.
Wie groß darf die Datei oder die Seitenzahl höchstens sein?
Es gibt keine feste Grenze im Werkzeug. Sehr große Dokumente mit Hunderten von Seiten dauern länger und verbrauchen mehr Speicher, da jede Seite nacheinander verarbeitet und der gesamte Text im Browser gehalten wird. Auf einem modernen Desktop lassen sich Dokumente mit mehreren Hundert Seiten bequem extrahieren; auf Geräten mit wenig Speicher können sehr große Dateien langsam sein.
Funktioniert das mit passwortgeschützten PDFs?
PDFs, die zum Öffnen ein Passwort verlangen, lassen sich in der Regel nicht ohne dieses lesen. Dateien, die nur durch ein Eigentümer-Passwort (Berechtigungen) geschützt sind, das das Kopieren einschränkt, können je nach Verschlüsselungsmodus dennoch lesbar sein, wobei du immer sicherstellen solltest, dass du das Recht hast, Text aus dem Dokument zu extrahieren.
Kommt es mit nicht-englischem Text und Sonderzeichen zurecht?
Ja, in den meisten Fällen. pdf.js liest die im PDF gespeicherten Zeichendaten und Unicode-Zuordnungen, sodass akzentuierter lateinischer Text, und viele andere Schriften, korrekt extrahiert werden, wenn die Datei passende Zeichenzuordnungen einbettet. Manche PDFs mit benutzerdefinierten oder Teilmengen-Schriften, denen eine verlässliche Zuordnung fehlt, können verstümmelte Zeichen erzeugen, was eine Einschränkung der Quelldatei und nicht des Werkzeugs ist.
Kann ich Text aus vielen PDFs auf einmal extrahieren?
Die Browser-Oberfläche verarbeitet eine Datei nach der anderen. Für die Massenextraktion ist pdf.js als npm-Paket verfügbar und kann in Node.js per Skript automatisiert werden, um Text aus Hunderten von Dateien zu ziehen. Die Extraktionslogik folgt demselben Ansatz wie hier: Sie ruft den Textinhalt jeder Seite ab und fügt die Fragmente zusammen.

Über Text aus PDF extrahieren

Dieses Werkzeug verwendet pdf.js, dieselbe Engine, die die PDF-Anzeige in modernen Browsern antreibt, und läuft vollständig auf deinem Gerät. Für jede Seite fordert es den Textinhalt an und fügt die einzelnen Textfragmente mit Leerzeichen zusammen, anschließend trennt es die Seiten durch Leerzeilen, damit die Ausgabe lesbar bleibt und das Layout des Originals grob widerspiegelt. Das Ergebnis erscheint in einem schreibgeschützten Textfeld zusammen mit der Seitenzahl, und du kannst alles mit einem Klick in die Zwischenablage kopieren oder als .txt-Datei herunterladen, die in jedem Editor geöffnet werden kann.

Alles geschieht in deinem Browser, ohne dass etwas hochgeladen wird. Das PDF wird von deiner lokalen Festplatte gelesen und im Arbeitsspeicher verarbeitet, wodurch private Verträge, Forschungsergebnisse und interne Dokumente von jedem Server Dritter ferngehalten werden. Eine wichtige Einschränkung, die du verstehen solltest, ist, dass dieses Werkzeug den Text liest, der tatsächlich als Text in der Datei gespeichert ist. Ein gescanntes Dokument oder ein als PDF gespeichertes Foto enthält nur Bilder von Wörtern, ohne zugrunde liegende Zeichendaten, und gibt daher wenig oder gar keinen Text zurück. Für solche Dateien bräuchtest du eine optische Zeichenerkennung, die Buchstaben aus den Pixeln erkennt, ein anderer Vorgang als die hier durchgeführte direkte Extraktion.

Warum es schwerer ist, Text aus einem PDF zu holen, als es aussieht

Ein PDF speichert Text nicht so, wie es ein Textverarbeitungsdokument tut. Statt Sätzen und Absätzen speichert es Zeichenanweisungen, die im Grunde sagen: platziere dieses Glyph an genau dieser Koordinate auf der Seite. Oft gibt es kein ausdrückliches Leerzeichen zwischen den Wörtern und keine Vorstellung davon, wo eine Zeile, Spalte oder ein Absatz endet und der nächste beginnt. Die Extraktionssoftware muss lesbaren Text rekonstruieren, indem sie die Positionen der Glyphen betrachtet, die Leerzeichen aus den Abständen zwischen ihnen ableitet und die Lesereihenfolge aus ihren Koordinaten errät. Deshalb kann Text aus einem komplexen Layout manchmal mit Wörtern in unerwarteter Reihenfolge oder mit einem Abstand ankommen, der nicht dem entspricht, was du auf dem Bildschirm gesehen hast.

Noch komplizierter wird die Sache durch die Schriften. Jede Schrift in einem PDF ordnet die Codes im Inhaltsstrom Glyphenformen zu, aber die Rückverbindung von einem Glyph zu seinem tatsächlichen Unicode-Zeichen ist optional und wird in einer Struktur namens ToUnicode-Tabelle getragen. Wenn diese Tabelle vorhanden ist, ist die Extraktion sauber. Wenn ein PDF eine Teilmengen- oder benutzerdefinierte Schrift verwendet und die Tabelle weglässt oder verfälscht, kann die extrahierte Ausgabe Kauderwelsch sein, obwohl die Seite perfekt aussieht, weil der Betrachter die Formen zu zeichnen weiß, die Datei aber nie festgehalten hat, welche Zeichen sie darstellen.

Dann gibt es noch die große Kluft zwischen echtem Text und Bildern von Text. Weltweit ist ein enormer Anteil der PDFs Scans: Fotografien oder Flachbettaufnahmen von Papier, in einen PDF-Container verpackt. Für einen Menschen sehen sie genauso aus wie ein digital erstelltes Dokument, aber sie enthalten überhaupt keine Zeichendaten, nur Pixel. Sie zu lesen erfordert eine optische Zeichenerkennung, ein Feld, dessen Wurzeln bis in die 1920er und 1930er Jahre und zu Geräten zurückreichen, die gebaut wurden, um blinden Lesern zu helfen und Post zu sortieren. Modernes OCR nutzt maschinelles Lernen, um über viele Sprachen hinweg hohe Genauigkeit zu erreichen, bleibt aber eine grundlegend andere und fehleranfälligere Aufgabe als das bloße Lesen des Textes, den ein digitales PDF bereits enthält, was genau das ist, was dieses Werkzeug tut.

Werbung
Werbung
Werbung