Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Fremde PDF-Dokumnte - automatisiert - maschinenlesbar bzw. durchsuchbar machen ?

Fremde PDF-Dokumnte - automatisiert - maschinenlesbar bzw. durchsuchbar machen ?

worldtrekker25.01.2214:09
Hallo an die -Fangemeinde,

Derzeit stehe ich etwas ratlos vor einer Herausforderung und habe diesbezüglich im Netz keine Lösung gefunden.

Hintergrund: aus beruflichen und privaten Gründen müssen immer wieder Dokumente, welche noch in Papierform zugestellt werden und teilweise in verschiedenen Sprachen verfasst sind, eingescannt und als PDF gespeichert werden.

Hierfür wird die Software „Abbyy FneReader PDF“ verwendet und das Ergebnis kann sich durchaus sehen lassen - die verschiedenen Sprachen werden zuverlässig erkannt und, dank der OCR-Erkennung, können im Finder entsprechende Stichwörter eingegeben werden.
Jene Dokumente, in welchen der Suchbegriff vorhanden ist bzw. erkannt wurde, werden zuverlässig angezeigt.

Die Herausforderung: Falls ein Dokument bereits als PDF zur Verfügung steht, z.B. ein Kontoauszug, so entfällt natürlich der Scanvorgang. Das Dokument wird nur im gewünschten Ort lokal gespeichert.

In dem oben beschrieben Fall kann keine Stichwortsuche über den Finder erfolgen, weil das Dokument (vom Verfasser ?) nicht maschinenlesbar ausgestellt ist.
Dies betrifft nicht nur Kontoauszüge, sondern auch Rechnungen, Bedienungsanleitungen, sonstigen Schriftverkehr usw., welche(r) nicht einen durch mich eingeleiteten Scanvorgang durchläuft.

Gesucht wird eine Möglichkeit, sämtliche lokal gespeicherten PDF-Dokumente - vielleicht mittels Automator - durchsuchbar zu machen. Das i-Tüpferl wäre, wenn ein solcher Vorgang bei neuen Dokumenten automatisch ablaufen würde, z.B. direkt beim Abspeichern oder als separater Vorgang während der Nacht.

Ist so etwas überhaupt möglich ?
Welche Software - vielleicht sogar Bordmittel des Mac - kann dafür in Frage kommen ?

Herzlichen Dank für Eure Meinungen und Hilfe.

worldtrekker
„Well done is better than well said ! (B. Franklin)“
0

Kommentare

Weia
Weia25.01.2218:00
worldtrekker
Die Herausforderung: Falls ein Dokument bereits als PDF zur Verfügung steht, z.B. ein Kontoauszug, so entfällt natürlich der Scanvorgang. Das Dokument wird nur im gewünschten Ort lokal gespeichert.
Aber das hindert Dich doch nicht daran, die OCR über das PDF laufen zu lassen? Abbyy FineReader PDF lässt sich doch auch auf existierende PDFs anwenden?
In dem oben beschrieben Fall kann keine Stichwortsuche über den Finder erfolgen, weil das Dokument (vom Verfasser ?) nicht maschinenlesbar ausgestellt ist.
Wer verschickt denn heute noch gescannte PDFs ohne Schrifterkennung?
Gesucht wird eine Möglichkeit, sämtliche lokal gespeicherten PDF-Dokumente - vielleicht mittels Automator - durchsuchbar zu machen. Das i-Tüpferl wäre, wenn ein solcher Vorgang bei neuen Dokumenten automatisch ablaufen würde, z.B. direkt beim Abspeichern oder als separater Vorgang während der Nacht.

Ist so etwas überhaupt möglich ?
Möglich ist so etwas natürlich; dafür brauchst Du allerdings ein OCR-Programm, das AppleScript-fähig ist; ich weiß nicht, ob Abbyy FineReader PDF das kann. Dabei ist Dein i-Tüpfelchen das Simpelste; man könnte z.B. eine AppleScript-Automatisierung bauen, die eine OCR über alle Dokumente laufen lässt, die in einem bestimmten Ordner abgelegt werden.

Was hingegen nicht trivial ist, ist, alle schon vorhandenen PDFs ohne OCR zu finden. Dazu bräuchte man einen Test, der PDFs mit OCR von solchen ohne unterscheiden kann. Irgendwie geht das sicher; ich weiß aber auf Anhieb nicht, wie.
Welche Software - vielleicht sogar Bordmittel des Mac - kann dafür in Frage kommen ?
Die Automatisierung kann natürlich mit AppleScript erfolgen, das zu macOS gehört. Ein AppleScript-fähiges OCR-Programm hingegen musst Du selbst besorgen; irgendeine Form von OCR gibt es in macOS nicht. (In Monterey kann man Texte aus Fotos extrahieren, aber man kann mit dieser Funktion keine durchsuchbaren PDFs erstellen.)
„Not every story must end with a battle (Ophelia, in der umwerfend guten feministischen Adaption des Hamlet-Stoffes in dem Film „Ophelia“)“
0
marm
marm25.01.2218:07
In Devonthink ist Abbyy FineReader enthalten. Wenn das gescannte Dokument in ein bestimmtes Verzeichnis gepeichert wird, dann kann es automatisch mit OCR importiert werden.
PDFs in Devonthink werden als "pdf" oder "pdf + text" angezeigt. Insofern ist leicht erkennbar, was noch per OCR verarbeitet werden muss.
+3
Termi
Termi25.01.2218:11
Bei Dokumenten in Papierform bietet sich ein Scanner mit Einzug und integrierter OCR an. Ich nutze hierfür einen Canon TS9550. OCR von bestehenden PDFs kann natürlich Adobe Acrobat. Mache ich auch damit. Beide nutzen übrigens hierfür die Engine von ReadIris. Problem bei erhaltenen PDFs kann der Änderungsschutz sein. Der ist aber so schwach, dass er sehr einfach entfernt werden kann. Ich nutze hierfür seit vielen Jahren PDFkey Pro, wo das per drag&drop geht.

Somit alles keine einzelne Lösung, aber vielleicht ein paar Ideen. Die Frage ist ja auch immer das Volumen.

Apropos Volumen. Wenn man PDFs hat, die per OCR lesbar gemach werden, wird hier oft nur eine Ebene mit transparentem Text über die Grafik gelegt. Funktioniert, aber ist sehr groß. In Acrobat kann man mit "Text erkennen" auch in bearbeitbare Texte und Grafiken umwandeln. Das macht die Dokumente drastisch kleiner.
-1
Weia
Weia25.01.2218:15
marm
In Devonthink ist Abbyy FineReader enthalten. Wenn das gescannte Dokument in ein bestimmtes Verzeichnis gepeichert wird, dann kann es automatisch mit OCR importiert werden.
PDFs in Devonthink werden als "pdf" oder "pdf + text" angezeigt. Insofern ist leicht erkennbar, was noch per OCR verarbeitet werden muss.
Ja, das ist dann vermutlich für Nicht-Experten die beste Komplettlösung.
„Not every story must end with a battle (Ophelia, in der umwerfend guten feministischen Adaption des Hamlet-Stoffes in dem Film „Ophelia“)“
+3
bmonno225.01.2218:42
Ich setze seit Jahren PDFScanner (AppStore, 17,99€) für OCR ein. Die App ist von einem deutschen Programmierer, macht gutes OCR, legt eine Textebene über das Bild, die Dokumente werden nicht sehr groß und das Programm kann AppleScript:
https://www.pdfscannerapp.com/applescript/
https://www.pdfscannerapp.com/automation/
+1
worldtrekker26.01.2205:07
Ein herzliches "Danke schön" an alle für die Antworten.

Weia
Die Möglichkeit, ein OCR über das PDF laufen zu lassen - also ohne das manuell Dokument zu scannen - kannte ich so gar nicht. Werde dies im FineReader mal suchen und ausprobieren...

bmonno2
Auch das werde ich mir genauer ansehen. Klingt interessant !


Gruss aus Dubai
worldtrekker
„Well done is better than well said ! (B. Franklin)“
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.