macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Forum>Software>macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

fadenschein15.08.2515:56

Hallo,

macOS hat seit einiger Zeit kein Problem darin, Text in jpgs oder anderen Bildformaten zu erkennen.
Bei PDFs mit Text, das im Bildformat implementiert ist, geht es aber nicht.

Bei einem kurzen 1-seitigen PDF kann man vielleicht helfen, indem man einfach einen Screenshot macht.
Bei mehreren Seiten ist das aber mühsam.

Übersehe ich etwas?
Hat jemand vielleicht ein AppleScript oder einen Kurzbefehl um mehrseitige derartige PDFs durchsuchbar zu machen?

Danke für Hinweise
Fadenschein

Kommentare

Nebula15.08.2516:14

Wo willst du suchen? In Vorschau oder in Spotlight? Vorschau sollte nach etwas Bedenkzeit automatisch gehen. Spotlight geht nur, wenn du das PDF dann durchsuchbar speicherst.

Marcel Bresink15.08.2516:17

Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Normalerweise wird bei PDF-Dokumenten erwartet, dass das erstellende Programm den durchsuchbaren Klartext bereits unsichtbar im Dokument hinterlegt hat. Das gilt auch für gescannte und OCR-behandelte Dokumente. Nur dann ist zum Beispiel zuverlässig sichergestellt, dass auch Worte mit sichtbarer Silbentrennung korrekt verarbeitet werden.

Als Behelfslösung kannst Du mit "Vorschau" das Bild in der PDF-Datei in einem echten Bilddateiformat exportieren und dort dann den Text erkennen lassen.

fadenschein15.08.2517:20

Marcel Bresink

Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Danke für die Erläuterung, aber ist das, was du als unüblich bezeichnest nicht genau das, was viele kostenpflichtige OCR Programme anbieten? Mit denen könnte ich ja ohne weiteres den Text in bestehende PDFs in lesbaren Text umwandeln und ich denke, dass das auch durchaus häufiger gemacht wird.

Ich bin einfach etwas verblüfft, dass in macOS die Technik dafür vorhanden ist, in Pixelformaten genau diese Funktion zur Verfügung zu stellen, aber es bei Pixelformaten, die in PDFs enthalten sind, nicht klappt.

Vielleicht liegt es ja darin, dass die Rechenleistung eines Macs an ihre Grenzen käme, wenn ein Nutzer unzählige hunderte Seiten zählende alte Text-Scans auf seinem Rechner hätte....

Nebula15.08.2518:00

Vorschau kann dank Live Text auch OCR bei PDFs. Wichtig ist, das kein maschinenlesbarer Text im PDF enthalten ist, sondern nur ein Bild pro Seite. Ansonsten klappt das nicht immer. Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar. Das erstellt die von Marcel genannten PDFs mit unsichtbarem Text. Diese findet auch Spotlight und sie sind nach dem Öffnen unverzüglich und auf jedem Computer durchsuchbar.

Live-Text ist aber nur für bestimmte Sprachen verfügbar und gibt es erst seit macOS 12.

fadenschein15.08.2520:04

Nebula

Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar.

Sehr interessant. Danke.
Verstehe ich es richtig: wenn ich ein PDF mit nicht lesbarem Text öffne, muss ich einfach ein Weilchen warten.
Wie lange erfahre ich nicht. Ich sehe auch nicht, ob überhaupt etwas passiert, oder ob das ganze gar nicht erst startet, weil irgendwo maschinenlesbarer Text vorhanden ist.
Irgendwann kann ich dann mit command+A testen, ob sich etwas auswählen lässt. Uns falls ja ist der Prozess abgeschlossen und ich kann beim Speichern 'Text einbetten' auswählen.

Nebula15.08.2523:56

Genau. Dauert auf einem M1 Max bei einer Seite wenige Sekunden. Keine Ahnung, wie das bei Intel performt. Dürfte auch stark von der Dateigröße abhängen.

KJM17.08.2508:32

Wenn es um mehrseitige PDFs geht, die nur gescannte Seiten enthalten, führt kein Weg an einem Programm vorbei, das OCR für das ganze Dokument vornehmen kann. Ich kann Prizmo empfehlen.

sudoRinger17.08.2509:40

fadenschein

Hat jemand vielleicht ein AppleScript oder einen Kurzbefehl um mehrseitige derartige PDFs durchsuchbar zu machen?

Wen Du homebrew nutzt, kannst Du eine OCR-Engine installieren inkl. Spracherweiterung.

brew install ocrmypdf
brew install tesseract-lang

Dann erstellst du ein Apple Script und speicherst dieses als Programm. Die App funktioniert als Droplet und kann ins Dock gezogen werden. PDF auf das Droplet fallen lassen - fertig.

on open dropped_items
    set item_path to POSIX path of (item 1 of dropped_items)
    set output_path to (text 1 thru -5 of item_path) & "_ocr.pdf"
    do shell script "export PATH=/opt/homebrew/bin:/usr/local/bin:$PATH && ocrmypdf -l deu " & quoted form of item_path & " " & quoted form of output_path
end open

zwischen - und l ist kein Leerzeichen, die Zeile geht dort weiter

sudoRinger17.08.2510:04

-l deu

Für Deutsch und Englisch, um schiefe Seiten zu begradigen und um die Ausrichtung zu korrigieren:

-l deu+eng --deskew --rotate-pages

Das Problem bei Apples Lösung: PDFs sind nur durchsuchbar, aber das Original-PDF bleibt unverändert. Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.

Nebula17.08.2511:49

sudoRinger

Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.

Doch das geht, hatte ich ja bereits beschrieben. Ansonsten wäre die Option „Text einbetten“, die nur verfügbar ist, wenn Text erkannt wurde, sinnfrei.

sudoRinger17.08.2512:32

Nebula

sudoRinger

Man kann den erkannten Text kopieren, aber nicht das PDF mit Text-Layer für andere Anwendungen oder Dritte speichern.

Doch das geht, hatte ich ja bereits beschrieben. Ansonsten wäre die Option „Text einbetten“, die nur verfügbar ist, wenn Text erkannt wurde, sinnfrei.

Sorry, habe ich überlesen. Ich kenne die OCR-Funktion von Apple eher als Hintergrunddienst um Bilder in Appe Notizen lesbar zu machen.
Ich habe den Export in der Apple Vorschau ausprobiert. Bei mir ist der Text nur als Layer links unten eingefügt und nicht deckungsgleich mit dem Text eingebunden. Ob das ein Einzelfall war, habe ich nicht getestet. Viele PDFs, die nicht gescannt sind, habe ich nicht. Ich finde das Ergebnis aber nicht so toll, da so keine Textabschnitte ausgewählt werden können. Letztlich komme ich so doch zum Ergebnis: für Spotlight-Suche gut, aber nicht um mit dem Text im Dokument zu arbeiten.

Ecke links unten:

rausche17.08.2513:15

Da ich das mit den macOS Boardmitteln auch nicht hinbekommen habe, benutze ich jetzt PDFify.

Die gescannten PDFs werden dann auch durchsuchbar gespeichert.

Nebula17.08.2522:31

sudoRinger

Das ist mir bislang nicht so aufgefallen. Ich kann Text wie bei Bildern immer an Ort und Stelle auswählen. Gegenüber echter OCR-Software ist die Erkennung aber nicht immer gut, kommt aber oft besser mit schrägem Text zurecht.

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.

Virtualisierung am Mac: Was kann sie, und wie s...

Weitere WWDC-Neuerungen: iCloud+, Siri-Wartelis...

Dummy des iPhone Ultra zeigt angeblich "echte G...

Kampfpreis beim iPhone 18 Pro und 18 Pro Max?

Push-Benachrichtungen für MTN-Meldungen – neues...

Chase in Deutschland – Apple Card möglich?

Kurz: Digitaler Führerschein kommt in Deutschla...

Themenausflug