Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

macOS kann PDFs mit Bitmap Text nicht durchsuchen, oder übersehe ich etwas?

fadenschein15.08.2515:56
Hallo,

macOS hat seit einiger Zeit kein Problem darin, Text in jpgs oder anderen Bildformaten zu erkennen.
Bei PDFs mit Text, das im Bildformat implementiert ist, geht es aber nicht.

Bei einem kurzen 1-seitigen PDF kann man vielleicht helfen, indem man einfach einen Screenshot macht.
Bei mehreren Seiten ist das aber mühsam.

Übersehe ich etwas?
Hat jemand vielleicht ein AppleScript oder einen Kurzbefehl um mehrseitige derartige PDFs durchsuchbar zu machen?

Danke für Hinweise
Fadenschein
0

Kommentare

Nebula
Nebula15.08.2516:14
Wo willst du suchen? In Vorschau oder in Spotlight? Vorschau sollte nach etwas Bedenkzeit automatisch gehen. Spotlight geht nur, wenn du das PDF dann durchsuchbar speicherst.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
0
Marcel Bresink15.08.2516:17
Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Normalerweise wird bei PDF-Dokumenten erwartet, dass das erstellende Programm den durchsuchbaren Klartext bereits unsichtbar im Dokument hinterlegt hat. Das gilt auch für gescannte und OCR-behandelte Dokumente. Nur dann ist zum Beispiel zuverlässig sichergestellt, dass auch Worte mit sichtbarer Silbentrennung korrekt verarbeitet werden.

Als Behelfslösung kannst Du mit "Vorschau" das Bild in der PDF-Datei in einem echten Bilddateiformat exportieren und dort dann den Text erkennen lassen.
+2
fadenschein15.08.2517:20
Marcel Bresink
Es wäre zwar technisch denkbar, das per Bilderkennung zu machen, aber diese Vorgehensweise ist bei PDF unüblich und deshalb nicht vorgesehen.

Danke für die Erläuterung, aber ist das, was du als unüblich bezeichnest nicht genau das, was viele kostenpflichtige OCR Programme anbieten? Mit denen könnte ich ja ohne weiteres den Text in bestehende PDFs in lesbaren Text umwandeln und ich denke, dass das auch durchaus häufiger gemacht wird.

Ich bin einfach etwas verblüfft, dass in macOS die Technik dafür vorhanden ist, in Pixelformaten genau diese Funktion zur Verfügung zu stellen, aber es bei Pixelformaten, die in PDFs enthalten sind, nicht klappt.

Vielleicht liegt es ja darin, dass die Rechenleistung eines Macs an ihre Grenzen käme, wenn ein Nutzer unzählige hunderte Seiten zählende alte Text-Scans auf seinem Rechner hätte....
0
Nebula
Nebula15.08.2518:00
Vorschau kann dank Live Text auch OCR bei PDFs. Wichtig ist, das kein maschinenlesbarer Text im PDF enthalten ist, sondern nur ein Bild pro Seite. Ansonsten klappt das nicht immer. Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar. Das erstellt die von Marcel genannten PDFs mit unsichtbarem Text. Diese findet auch Spotlight und sie sind nach dem Öffnen unverzüglich und auf jedem Computer durchsuchbar.

Live-Text ist aber nur für bestimmte Sprachen verfügbar und gibt es erst seit macOS 12.
„»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs“
+1
fadenschein15.08.2520:04
Nebula
Live Text gibt keinen Status aus, man kann nur erkennen, dass es fertig ist, wenn sich Text auswählen lässt, etwa mit Command-A. Nur dann ist beim "Export" oder "Speichern unter" die Option "Text einbetten" verfügbar.

Sehr interessant. Danke.
Verstehe ich es richtig: wenn ich ein PDF mit nicht lesbarem Text öffne, muss ich einfach ein Weilchen warten.
Wie lange erfahre ich nicht. Ich sehe auch nicht, ob überhaupt etwas passiert, oder ob das ganze gar nicht erst startet, weil irgendwo maschinenlesbarer Text vorhanden ist.
Irgendwann kann ich dann mit command+A testen, ob sich etwas auswählen lässt. Uns falls ja ist der Prozess abgeschlossen und ich kann beim Speichern 'Text einbetten' auswählen.
0

Kommentieren

Sie müssen sich einloggen, um sich an einer Diskussion beteiligen zu können.