Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Text aus PDF-Datei extrahieren

Text aus PDF-Datei extrahieren

toldor03.08.1021:49
Hallo Forum!

Ich grüble grade wie ich folgendes Problem lösen kann. Ich habe einen Ordner mit mehreren PDF-Dateien. Diese enthalten immer auf der ersten Seite eine Überschrift. Diese Überschriften aus jeder Datei möchte ich gern in eine Text-Datei extrahieren. Mit dem Automator kann ich eine komplette PDf-Datei extrahieren aber nicht nur einzelne Zeilen. Auch komme ich nicht so dahinter, wie ich aus den extrahierten Text-Dateien (für jede PDF eine) im Automator jeweils die erste Zeile in eine neue Datei schreiben kann. Gibt es hierfür Anleitungen oder auch schon Programme die das machen, was ich möchte?
0

Kommentare

_mäuschen
_mäuschen04.08.1001:40

Damit pdf2txt wirklich funktioniert,
empfehle ich Dir File Juicer

FJ kann das besser als der im Automator eingebaute.


Lass in einen 'workspace' Ordner als ASCII konvertieren.

Die Ersten Zeilen der .txt Dateien kannst nachher im Terminal mit

find Desktop/workspace -name "*.txt" -exec sed -n '1p' '{}' \; >> Desktop/pdfTitelListe.txt

auflisten.
0
_mäuschen
_mäuschen04.08.1011:23

Ha.

Noch einfacher geht's mit pdftotext auf Carsten Blüms website

und dann

find ~/Desktop/workspace -name "*.pdf" -exec pdftotext '{}' \;

find ~/Desktop/workspace -name "*.txt" -exec sed -n '1p' '{}' \; >> ~/Desktop/workspace/all_pdf_Titel-Liste.txt

nur im Terminal. Ohne FJ$

0
sierkb04.08.1013:25
_mäuschen:

Zu pdftotext:

pdftotext ging mir gestern auch als Erstes durch den Sinn, als ich die Frage gelesen hatte. Deshalb war ich etwas verwundert, ausgerechnet von Dir dann den Vorschlag bzgl. File Juicer zu lesen.

Nicht für Dich, aber für den Fragesteller evtl. wichtig: pdftotext wandelt PDF-Dateien in Text-Dateien um (wie der Name schon sagt), siehe dazu auch die Erklärung auf Wikipedia: .

pdftotext ist Bestandteil der Xpdf tools unter Unix/Linux.
Leider ist es wohl etwas schwierig, da ein fertiges Binary von pdftotext zu bekommen, welches nur uns ausschließlich pdftotext enthält. Du hast die Webseite von Carsten Blüm genannt, das scheint aber auch so mit die einzige Anlaufstelle dafür zu sein, ein solches fertig kompiliertes Binary für den Mac zu bekommen.
Auf Softpedia habe ich's nochmal gespiegelt gefunden: . Dieses Binary von Carsten Blüm installiert sich nach /usr/local/bin/pdftotext.

Eine andere Möglichkeit wäre, wenn man MacPorts installiert hat, es auf diese Weise nachzurüsten: sudo port install poppler. Warum Poppler?

Weil pdftotext nicht nur Bestandteil der viel umfangreicheren xpdf-Suite ist, sondern auch Bestandteil von Poppler, einer abgespeckten Version der xpdf tools: , (MacPorts Poppler: ).

Das von Carsten Blüm geschnürte Binary-Einzelpaket von pdftotext mag möglicherweise nicht das Allerneueste sein gegenüber der Version, die Poppler oder die xpdf-Suite als deren Bestandteil mitliefern, aber vielleicht reicht diese etwas in die Jahre gekommene Soloversion von Carsten Blüm ja für den hier angefragten Zweck vollkommen aus.

Zu den Überschriften: wie will er denn gezielt alle Überschriften aus so einem erstellten Text-Dokument rausziehen und nicht nur die ersten Zeilen, in denen sich dann möglicherweise zufällig auch eine Überschrift befindet? Geht das überhaupt? Die Überschriften sind doch auch zu Text gemacht worden und nicht irgendwie näher ausgezeichnet. Wie kann sed da zwischen normalem Text und Überschriften unterscheiden, wenn in dem entstandenen Dokument eh alles nur Text ist?

Wäre es da nicht evtl. schlauer und gewinnbringender, sich das Dokument zuvor nicht in reinen Text umwandeln zu lassen, sondern entweder in RTF oder in HTML (entweder mit pdftortf oder mit pdftohtml ), wo wenigstens die theoretische Möglichkeit besteht, dass Überschriften aus dem PDF auch im erstellten RTF- oder HTML/XML-Dokument dann als Überschriften ausgezeichnet werden (wenn's glücklich läuft)?

Und dass man dann auf diese Weise per sed (das bei Dir ja naheliegenderweise schon zum Einsatz kommt) gezielt und genau passend diese ausgezeichneten Überschriften aus dem gesamten RTF-Dokument (HTML/XML-Dokument wäre evtl. noch sinnhafter) rauszuziehen versucht?
0
toldor05.08.1010:41
Danke für die Tipps. Ich werde es heute abend mal ausprobieren.
0
toldor05.08.1010:46
@sierkb: Bei den PDF-Dateien die ich bearbeiten will ist immer auf der ersten Seite der Name des Dokuments. Beim Versuch mit dem Automator und PDF-Text extrahieren hat dieser immer den Namen in die erste Zeile geschrieben. Da es sich um mehr als 300 Dateien handelt, ist eine automatische Lösung natürlich praktisch.
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.