Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

fadenschein15.08.2515:56
Hallo,

macOS hat seit einiger Zeit kein Problem darin, Text in jpgs oder anderen Bildformaten zu erkennen.
Bei PDFs mit Text, das im Bildformat implementiert ist, geht es aber nicht.

Bei einem kurzen 1-seitigen PDF kann man vielleicht helfen, indem man einfach einen Screenshot macht.
Bei mehreren Seiten ist das aber mühsam.

Übersehe ich etwas?
Hat jemand vielleicht ein AppleScript oder einen Kurzbefehl um mehrseitige derartige PDFs durchsuchbar zu machen?

Danke für Hinweise
Fadenschein
0

Kommentare

Nebula
Nebula15.08.2516:14
Wo willst du suchen? In Vorschau oder in Spotlight? Vorschau sollte nach etwas Bedenkzeit automatisch gehen. Spotlight geht nur, wenn du das PDF dann durchsuchbar speicherst.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
+1
Marcel Bresink15.08.2516:17
Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Normalerweise wird bei PDF-Dokumenten erwartet, dass das erstellende Programm den durchsuchbaren Klartext bereits unsichtbar im Dokument hinterlegt hat. Das gilt auch für gescannte und OCR-behandelte Dokumente. Nur dann ist zum Beispiel zuverlässig sichergestellt, dass auch Worte mit sichtbarer Silbentrennung korrekt verarbeitet werden.

Als Behelfslösung kannst Du mit "Vorschau" das Bild in der PDF-Datei in einem echten Bilddateiformat exportieren und dort dann den Text erkennen lassen.
+6
fadenschein15.08.2517:20
Marcel Bresink
Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Danke für die Erläuterung, aber ist das, was du als unüblich bezeichnest nicht genau das, was viele kostenpflichtige OCR Programme anbieten? Mit denen könnte ich ja ohne weiteres den Text in bestehende PDFs in lesbaren Text umwandeln und ich denke, dass das auch durchaus häufiger gemacht wird.

Ich bin einfach etwas verblüfft, dass in macOS die Technik dafür vorhanden ist, in Pixelformaten genau diese Funktion zur Verfügung zu stellen, aber es bei Pixelformaten, die in PDFs enthalten sind, nicht klappt.

Vielleicht liegt es ja darin, dass die Rechenleistung eines Macs an ihre Grenzen käme, wenn ein Nutzer unzählige hunderte Seiten zählende alte Text-Scans auf seinem Rechner hätte....
0
Nebula
Nebula15.08.2518:00
Vorschau kann dank Live Text auch OCR bei PDFs. Wichtig ist, das kein maschinenlesbarer Text im PDF enthalten ist, sondern nur ein Bild pro Seite. Ansonsten klappt das nicht immer. Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar. Das erstellt die von Marcel genannten PDFs mit unsichtbarem Text. Diese findet auch Spotlight und sie sind nach dem Öffnen unverzüglich und auf jedem Computer durchsuchbar.

Live-Text ist aber nur für bestimmte Sprachen verfügbar und gibt es erst seit macOS 12.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
+4
fadenschein15.08.2520:04
Nebula
Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar.

Sehr interessant. Danke.
Verstehe ich es richtig: wenn ich ein PDF mit nicht lesbarem Text öffne, muss ich einfach ein Weilchen warten.
Wie lange erfahre ich nicht. Ich sehe auch nicht, ob überhaupt etwas passiert, oder ob das ganze gar nicht erst startet, weil irgendwo maschinenlesbarer Text vorhanden ist.
Irgendwann kann ich dann mit command+A testen, ob sich etwas auswählen lässt. Uns falls ja ist der Prozess abgeschlossen und ich kann beim Speichern 'Text einbetten' auswählen.
+2
Nebula
Nebula15.08.2523:56
Genau. Dauert auf einem M1 Max bei einer Seite wenige Sekunden. Keine Ahnung, wie das bei Intel performt. Dürfte auch stark von der Dateigröße abhängen.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
0
KJM
KJM17.08.2508:32
Wenn es um mehrseitige PDFs geht, die nur gescannte Seiten enthalten, führt kein Weg an einem Programm vorbei, das OCR für das ganze Dokument vornehmen kann. Ich kann Prizmo empfehlen.
0
sudoRinger
sudoRinger17.08.2509:40
fadenschein
Hat jemand vielleicht ein AppleScript oder einen Kurzbefehl um mehrseitige derartige PDFs durchsuchbar zu machen?
Wen Du homebrew nutzt, kannst Du eine OCR-Engine installieren inkl. Spracherweiterung.
brew install ocrmypdf
brew install tesseract-lang
Dann erstellst du ein Apple Script und speicherst dieses als Programm. Die App funktioniert als Droplet und kann ins Dock gezogen werden. PDF auf das Droplet fallen lassen - fertig.
on open dropped_items
    set item_path to POSIX path of (item 1 of dropped_items)
    set output_path to (text 1 thru -5 of item_path) & "_ocr.pdf"
    do shell script "export PATH=/opt/homebrew/bin:/usr/local/bin:$PATH && ocrmypdf -l deu " & quoted form of item_path & " " & quoted form of output_path
end open
zwischen - und l ist kein Leerzeichen, die Zeile geht dort weiter
+1
sudoRinger
sudoRinger17.08.2510:04
-l deu 
Für Deutsch und Englisch, um schiefe Seiten zu begradigen und um die Ausrichtung zu korrigieren:
-l deu+eng --deskew --rotate-pages

Das Problem bei Apples Lösung: PDFs sind nur durchsuchbar, aber das Original-PDF bleibt unverändert. Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.
0
Nebula
Nebula17.08.2511:49
sudoRinger
Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.
Doch das geht, hatte ich ja bereits beschrieben. Ansonsten wäre die Option „Text einbetten“, die nur verfügbar ist, wenn Text erkannt wurde, sinnfrei.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
+1
sudoRinger
sudoRinger17.08.2512:32
Nebula
sudoRinger
Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.
Doch das geht, hatte ich ja bereits beschrieben. Ansonsten wäre die Option „Text einbetten“, die nur verfügbar ist, wenn Text erkannt wurde, sinnfrei.
Sorry, habe ich überlesen. Ich kenne die OCR-Funktion von Apple eher als Hintergrunddienst um Bilder in Appe Notizen lesbar zu machen.
Ich habe den Export in der Apple Vorschau ausprobiert. Bei mir ist der Text nur als Layer links unten eingefügt und nicht deckungsgleich mit dem Text eingebunden. Ob das ein Einzelfall war, habe ich nicht getestet. Viele PDFs, die nicht gescannt sind, habe ich nicht. Ich finde das Ergebnis aber nicht so toll, da so keine Textabschnitte ausgewählt werden können. Letztlich komme ich so doch zum Ergebnis: für Spotlight-Suche gut, aber nicht um mit dem Text im Dokument zu arbeiten.

Ecke links unten:
0
rausche
rausche17.08.2513:15
Da ich das mit den macOS Boardmitteln auch nicht hinbekommen habe, benutze ich jetzt PDFify.

Die gescannten PDFs werden dann auch durchsuchbar gespeichert.
0
Nebula
Nebula17.08.2522:31
sudoRinger
Sorry, habe ich überlesen. Ich kenne die OCR-Funktion von Apple eher als Hintergrunddienst um Bilder in Appe Notizen lesbar zu machen.
Ich habe den Export in der Apple Vorschau ausprobiert. Bei mir ist der Text nur als Layer links unten eingefügt und nicht deckungsgleich mit dem Text eingebunden. Ob das ein Einzelfall war, habe ich nicht getestet. Viele PDFs, die nicht gescannt sind, habe ich nicht. Ich finde das Ergebnis aber nicht so toll, da so keine Textabschnitte ausgewählt werden können. Letztlich komme ich so doch zum Ergebnis: für Spotlight-Suche gut, aber nicht um mit dem Text im Dokument zu arbeiten.

Ecke links unten:
Das ist mir bislang nicht so aufgefallen. Ich kann Text wie bei Bildern immer an Ort und Stelle auswählen. Gegenüber echter OCR-Software ist die Erkennung aber nicht immer gut, kommt aber oft besser mit schrägem Text zurecht.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
0

Kommentieren

Sie müssen sich einloggen, um sich an einer Diskussion beteiligen zu können.