Text aus PDF extrahieren
Hol allen auswählbaren Text aus einem PDF als reinen Text heraus, den du kopieren oder herunterladen kannst, lokal in deinem Browser.
Text aus PDF extrahieren wird geladen… Wenn nichts passiert, aktiviere JavaScript.
Text aus einem PDF zu extrahieren bedeutet, die im Dokument gespeicherten Zeichen zu lesen und sie als reinen, bearbeitbaren Text zurückzugeben. Es ist einer der am häufigsten benötigten Vorgänge in jedem Dokumenten-Workflow. Vielleicht möchtest du eine Passage aus einem Bericht zitieren, den Inhalt eines Papiers in einen Suchindex einspeisen, Text aus einer alten Broschüre wiederverwenden, Wörter zählen oder einfach sauberen Text aus einer Datei holen, die in deinem üblichen Betrachter keine einfache Auswahl zulässt. Statt etwas abzutippen, lässt du das Werkzeug das Dokument durchgehen und dir alles übergeben, was es lesen kann.
Häufig gestellte Fragen
Werden meine Dateien auf einen Server hochgeladen?
Warum gibt ein gescanntes PDF wenig oder gar keinen Text zurück?
Wie ist der extrahierte Text gegliedert?
Kann ich den Text kopieren oder in einer Datei speichern?
Bleibt die Formatierung wie Fettdruck, Tabellen oder Spalten erhalten?
Wie groß darf die Datei oder die Seitenzahl höchstens sein?
Funktioniert das mit passwortgeschützten PDFs?
Kommt es mit nicht-englischem Text und Sonderzeichen zurecht?
Kann ich Text aus vielen PDFs auf einmal extrahieren?
Über Text aus PDF extrahieren
Dieses Werkzeug verwendet pdf.js, dieselbe Engine, die die PDF-Anzeige in modernen Browsern antreibt, und läuft vollständig auf deinem Gerät. Für jede Seite fordert es den Textinhalt an und fügt die einzelnen Textfragmente mit Leerzeichen zusammen, anschließend trennt es die Seiten durch Leerzeilen, damit die Ausgabe lesbar bleibt und das Layout des Originals grob widerspiegelt. Das Ergebnis erscheint in einem schreibgeschützten Textfeld zusammen mit der Seitenzahl, und du kannst alles mit einem Klick in die Zwischenablage kopieren oder als .txt-Datei herunterladen, die in jedem Editor geöffnet werden kann.
Alles geschieht in deinem Browser, ohne dass etwas hochgeladen wird. Das PDF wird von deiner lokalen Festplatte gelesen und im Arbeitsspeicher verarbeitet, wodurch private Verträge, Forschungsergebnisse und interne Dokumente von jedem Server Dritter ferngehalten werden. Eine wichtige Einschränkung, die du verstehen solltest, ist, dass dieses Werkzeug den Text liest, der tatsächlich als Text in der Datei gespeichert ist. Ein gescanntes Dokument oder ein als PDF gespeichertes Foto enthält nur Bilder von Wörtern, ohne zugrunde liegende Zeichendaten, und gibt daher wenig oder gar keinen Text zurück. Für solche Dateien bräuchtest du eine optische Zeichenerkennung, die Buchstaben aus den Pixeln erkennt, ein anderer Vorgang als die hier durchgeführte direkte Extraktion.
Warum es schwerer ist, Text aus einem PDF zu holen, als es aussieht
Ein PDF speichert Text nicht so, wie es ein Textverarbeitungsdokument tut. Statt Sätzen und Absätzen speichert es Zeichenanweisungen, die im Grunde sagen: platziere dieses Glyph an genau dieser Koordinate auf der Seite. Oft gibt es kein ausdrückliches Leerzeichen zwischen den Wörtern und keine Vorstellung davon, wo eine Zeile, Spalte oder ein Absatz endet und der nächste beginnt. Die Extraktionssoftware muss lesbaren Text rekonstruieren, indem sie die Positionen der Glyphen betrachtet, die Leerzeichen aus den Abständen zwischen ihnen ableitet und die Lesereihenfolge aus ihren Koordinaten errät. Deshalb kann Text aus einem komplexen Layout manchmal mit Wörtern in unerwarteter Reihenfolge oder mit einem Abstand ankommen, der nicht dem entspricht, was du auf dem Bildschirm gesehen hast.
Noch komplizierter wird die Sache durch die Schriften. Jede Schrift in einem PDF ordnet die Codes im Inhaltsstrom Glyphenformen zu, aber die Rückverbindung von einem Glyph zu seinem tatsächlichen Unicode-Zeichen ist optional und wird in einer Struktur namens ToUnicode-Tabelle getragen. Wenn diese Tabelle vorhanden ist, ist die Extraktion sauber. Wenn ein PDF eine Teilmengen- oder benutzerdefinierte Schrift verwendet und die Tabelle weglässt oder verfälscht, kann die extrahierte Ausgabe Kauderwelsch sein, obwohl die Seite perfekt aussieht, weil der Betrachter die Formen zu zeichnen weiß, die Datei aber nie festgehalten hat, welche Zeichen sie darstellen.
Dann gibt es noch die große Kluft zwischen echtem Text und Bildern von Text. Weltweit ist ein enormer Anteil der PDFs Scans: Fotografien oder Flachbettaufnahmen von Papier, in einen PDF-Container verpackt. Für einen Menschen sehen sie genauso aus wie ein digital erstelltes Dokument, aber sie enthalten überhaupt keine Zeichendaten, nur Pixel. Sie zu lesen erfordert eine optische Zeichenerkennung, ein Feld, dessen Wurzeln bis in die 1920er und 1930er Jahre und zu Geräten zurückreichen, die gebaut wurden, um blinden Lesern zu helfen und Post zu sortieren. Modernes OCR nutzt maschinelles Lernen, um über viele Sprachen hinweg hohe Genauigkeit zu erreichen, bleibt aber eine grundlegend andere und fehleranfälligere Aufgabe als das bloße Lesen des Textes, den ein digitales PDF bereits enthält, was genau das ist, was dieses Werkzeug tut.