PDF Analyse: OCR eingebettet oder macos Livetext Funktion in Vorschau?

Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Forum>Software>PDF Analyse: OCR eingebettet oder macos Livetext Funktion in Vorschau?

Oceanbeat17.12.2500:06

Hallo Experten!

Mir fiel leider keine bessere Beschreibung für den Titel ein.

Ich habe hier einen Dokumentenscan eines Textes als PDF vorliegen. Wenn das Dokument in der Vorschau geöffnet ist und ich extrem hinein zoome, sind die Buchstaben als verpixelte Rastergrafik zu erkennen. In der Vorschau kann ich allerdings Text mit dem Cursor auswählen und kopieren. Hierbei handelt es sich meines Wissens nach um die Livetext OCR Funktion des Systems.

Meine Frage an die Experten:
Wie kann ich zweifelsfrei feststellen, ob der PDF-Scan schon eine OCR-Erkennung durchlaufen hat und dieses Ergebnis im PDF als unsichtbare Textebene mit eingebettet wurde oder ob es sich beim Betrachten lediglich um die systemeigene Livetext-Funktion handelt?

„Wenn das Universum expandiert, werden wir dann alle dicker...?“

Kommentare

sudoRinger17.12.2500:55

Mir fallen zwei Methoden ein:

Wenn Du Devonthink hast, wird der Typ entweder als PDF-Dokument oder PDF+Text angezeigt.
Du kannst Live Text vorübergehend deaktivieren: Systemeinstellungen > Allgemein > Sprache & Region > Live Text. Wenn das Dokument noch geöffnet ist, schließe es und öffne es erneut. Ohne Live Text kannst du in reinen Bild-PDFs nun keinen Text auswählen. Mit einer Visitenkarte hat die Methode gerade funktioniert.

Eigentlich sollte sich der Text auch per Terminal aus den Spotlight-Metadaten lesen lassen. Das ist mir aber noch nicht gelungen (mit mdls oder textutil).

Nebula17.12.2501:06

Howard Oakley hat das passende Tool dazu:

Es zeigt dir den eingebetteten Text an. Ist die Seitenleiste leer, dann war Live-Text am Werk.

Oceanbeat17.12.2501:07

Herzlichen Dank für deine Hinweise!

Devon Think habe ich nicht zur Verfügung aber den zweiten Tip werde ich später testen - wusste nicht dass sich die Livetext Erkennung abstellen lässt.

Würde man eventuell Hinweise im Dokument finden lassen, wenn man dieses direkt in einem Texteditor öffnet…?

Danke auch an Nebula - teste ich.

„Wenn das Universum expandiert, werden wir dann alle dicker...?“

xcomma17.12.2505:59

sudoRinger

[..] Devonthink [..] PDF+Text

Genauso mache ich es auch.

sudoRinger

[..] in reinen Bild-PDFs nun keinen Text auswählen

Exakt.
Aber: zumindest wenn man nicht selber das PDF - geschweige denn die OCR Variante davon- erzeugt hat, sondern man eine PDF Datei von jemandem bekommt kann es vorkommen, dass ein solches PDF beides enthalten kann. Also Seite 1-4 ist PDF+Text, Seite 5 ist PDF (Bild) beispielsweise.

Oceanbeat

Würde man eventuell Hinweise im Dokument finden lassen, wenn man dieses direkt in einem Texteditor öffnet…?

Habe hier ausschnittsweise einen Textabschnitt aus der Texteditor-Ansicht mal herauskopiert von einem gescannten Beleg als PDF und dessen OCR-te Variante zum Vergleich:

PDF (Bild):

(Mac OS X 10.13.6 Quartz PDFContext)
endobj
14 0 obj
(D:20250201174629Z00'00')
endobj
1 0 obj
<< /Producer 13 0 R /CreationDate 14 0 R /ModDate 14 0 R >>
endobj
xref

PDF mit OCR (Titel hab ich aus Privacy Gründen angepasst):

/Producer (Abbyy FineReader 8)
/Creator (DEVONthink Pro Office 2.11.3)
/Title (2025-12-17 MTN Forum EUR500.00.pdf)
/CreationDate (D:20250201184919+01'00)
/ModDate (D:20250201184919+01'00)
>>
endobj
xref

Wenn es sich ausschliesslich um selbst erzeugte PDFs handelt inkl. selbst durchgeführtem OCR Vorgang, könntest du evtl. auf gewisse Textbestandteile "grepen", wie z.B. den Namen der OCR Einheit, die hier "Abbyy FineReader" wäre. Aber wenn der ganze Ablauf eh unter deiner Kontrolle schon ist, lässt sich das natürlich anderweitig organisieren, sei es durch Dateinamenskonvention und/oder Ordner-basierte Sortierungen als Bestandteil des ganzen Vorgangs.

Bei "Fremd-PDFs" aus unterschiedlichen Quellen böte sich das weniger an, auch weil es die o.g. Situationen geben kann mit gemischten Seiten innerhalb derselben PDF-Datei.

xcomma17.12.2506:14

xcomma

[..] dass ein solches PDF beides enthalten kann

Unglücklich, aber es gibt solche zusammengeschusterten PDFs. Das was mir untergekommen war, war sogar ein offizielles Anmeldeformular von einer Organisation. Ein Teil war generiertes PDF, quasi direkt aus einem "Word" herausgeneriert wie man das halt so kennt/macht, dann aber wurden weitere Seiten hinzugefügt als PDF-Bild, obwohl deren Inhalt ebenfalls nur textueller Natur war.

Oceanbeat18.12.2515:43

Ich habe jetzt testweise die Livetext Funktion im System deaktiviert. Es lassen sich keine Texte mehr aus dem Scan kopieren.

Nach dem Download von Howard Oakleys „podofyllin14“ und öffnen des betr. PDF, bleibt die rechte Spalte in der App auch leer. Also ist davon auszugehen, dass kein OCR Erkennung durchgelaufen ist. Im Source Infofenster findet man dort folgendes Summary:

„Wenn das Universum expandiert, werden wir dann alle dicker...?“

Oceanbeat18.12.2515:47

Bedeutet das Summary, dass es sich nicht um einen reinen Dokumenten-Scan handelt, weil dort Objects angegeben werden...?

„Wenn das Universum expandiert, werden wir dann alle dicker...?“

Nebula18.12.2517:25

Es können schön mehrere Objekte für ein einzige Bild vorhanden sein. Das Bild selbst, eine Bildrahmen, der es beschneidet, ein Rahmen für die Seitenbegrenzung (Bounding Box), vielleicht noch eine weiße Fläche. Kommt drauf an, wie und womit die Datei erstellt wurde. Eigentlich kann dir das egal sein. Wenn nicht, müsstest du das mit dem PDF-Editor verifizieren können.

Oceanbeat19.12.2509:47

Der Ausgangspunkt meiner Recherche war der Verdacht auf eine Manipulation des PDF Dokuments. Bei dem PDF handelt es sich vorgeblich um den Scan eines in Papierform vorliegenden originalen Vertragstextes inklusive Unterschriften und Stempel auf der letzten Seite. Beim Betrachten der Unterschriftenseite fällt sofort ins Auge, dass die horizontalen feinen Hilfslinien des Formulars in einer Ebene über den Unterschriften und dem Stempel liegen. Die Unterlängen der farbigen Unterschriften sowie der blaue Stempel liegen also unterhalb dieser schwarzen Hilfslinien.
Ich kann leider keinen Screenshot hier einstellen, da es sich um ein vertrauliches Dokument handelt.

Wie kann das bei einem normalen Scanvorgang eines Papierdokuments zu Stande kommen oder gibt es irgendeine andere Erklärung hierfür? Falls nicht, muss das Dokument doch irgendwie erzeugt worden sein. Einen Hinweis auf ein Erzeugerprogramm konnte ich bislang nicht finden, nachdem ich das PDF in einem Texteditor geöffnet hatte.

Beim öffnen des Dokuments im Illustrator zeigt sich, dass es mehrere verschiebbare Rahmen mit Rastergafiken enthält. Es sind keine Vektorelemente vorhanden. Unsicher bin ich mir dabei, ob es sich eventuell nur um eine Interpretation des Illustrators handelt.

So, der Komissar muss jetzt erstmal frühstücken…

„Wenn das Universum expandiert, werden wir dann alle dicker...?“

oxid20.12.2505:31

Oceanbeat
Bist du dir absolut sicher dass die Unterschrift und Stempel hinter den Linien liegen? Sind die vielleicht doch übereinander liegend?

Was aber darauf hindeuten würde dass das Dokument zusammengebaut wurde: ist Stempel und Unterschrift in Illustrator verschiebbar?

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.

TechTicker

Video: So entstehen iPhone-Akkus

Mehrere milliardenschwere Großübernahmen: Fox/R...

Ugreen 240W USB-C

iPhone 18 Pro: Prognosen zur Preiserhöhung

Dateneinbruch: Interne Dkumente zum iPhone 18 P...

Zuverlässigkeit und Defekte: Intel- vs. M-MacBo...

Logoist 6 erschienen