Bereiche
News
Rewind
Tipps & Berichte
Forum
Galerie
Journals
Events
Umfragen
Themenwoche
Kleinanzeigen
Interaktiv
Anmelden
Registrierung
Zu allen empfangenen Nachrichten
Suche...
Zur erweiterten Suche
Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum
>
Software
>
PDF Analyse: OCR eingebettet oder macos Livetext Funktion in Vorschau?
PDF Analyse: OCR eingebettet oder macos Livetext Funktion in Vorschau?
Oceanbeat
17.12.25
00:06
Hallo Experten!
Mir fiel leider keine bessere Beschreibung für den Titel ein.
Ich habe hier einen Dokumentenscan eines Textes als PDF vorliegen. Wenn das Dokument in der Vorschau geöffnet ist und ich extrem hinein zoome, sind die Buchstaben als verpixelte Rastergrafik zu erkennen. In der Vorschau kann ich allerdings Text mit dem Cursor auswählen und kopieren. Hierbei handelt es sich meines Wissens nach um die Livetext OCR Funktion des Systems.
Meine Frage an die Experten:
Wie kann ich zweifelsfrei feststellen, ob der PDF-Scan schon eine OCR-Erkennung durchlaufen hat und dieses Ergebnis im PDF als unsichtbare Textebene mit eingebettet wurde oder ob es sich beim Betrachten lediglich um die systemeigene Livetext-Funktion handelt?
„Wenn das Universum expandiert, werden wir dann alle dicker...?“
Hilfreich?
0
Kommentare
sudoRinger
17.12.25
00:55
Mir fallen zwei Methoden ein:
Wenn Du Devonthink hast, wird der Typ entweder als PDF-Dokument oder PDF+Text angezeigt.
Du kannst Live Text vorübergehend deaktivieren: Systemeinstellungen > Allgemein > Sprache & Region > Live Text. Wenn das Dokument noch geöffnet ist, schließe es und öffne es erneut. Ohne Live Text kannst du in reinen Bild-PDFs nun keinen Text auswählen. Mit einer Visitenkarte hat die Methode gerade funktioniert.
Eigentlich sollte sich der Text auch per Terminal aus den Spotlight-Metadaten lesen lassen. Das ist mir aber noch nicht gelungen (mit mdls oder textutil).
Hilfreich?
+1
Nebula
17.12.25
01:06
Howard Oakley hat das passende Tool dazu:
Es zeigt dir den eingebetteten Text an. Ist die Seitenleiste leer, dann war Live-Text am Werk.
Hilfreich?
+1
Oceanbeat
17.12.25
01:07
Herzlichen Dank für deine Hinweise!
Devon Think habe ich nicht zur Verfügung aber den zweiten Tip werde ich später testen - wusste nicht dass sich die Livetext Erkennung abstellen lässt.
Würde man eventuell Hinweise im Dokument finden lassen, wenn man dieses direkt in einem Texteditor öffnet…?
Danke auch an Nebula - teste ich.
„Wenn das Universum expandiert, werden wir dann alle dicker...?“
Hilfreich?
0
xcomma
17.12.25
05:59
sudoRinger
[..] Devonthink [..] PDF+Text
Genauso mache ich es auch.
sudoRinger
[..] in reinen Bild-PDFs nun keinen Text auswählen
Exakt.
Aber: zumindest wenn man nicht selber das PDF - geschweige denn die OCR Variante davon- erzeugt hat, sondern man eine PDF Datei von jemandem bekommt kann es vorkommen, dass ein solches PDF beides enthalten kann. Also Seite 1-4 ist PDF+Text, Seite 5 ist PDF (Bild) beispielsweise.
Oceanbeat
Würde man eventuell Hinweise im Dokument finden lassen, wenn man dieses direkt in einem Texteditor öffnet…?
Habe hier ausschnittsweise einen Textabschnitt aus der Texteditor-Ansicht mal herauskopiert von einem gescannten Beleg als PDF und dessen OCR-te Variante zum Vergleich:
PDF (Bild):
(Mac OS X 10.13.6 Quartz PDFContext)
endobj
14 0 obj
(D:20250201174629Z00'00')
endobj
1 0 obj
<< /Producer 13 0 R /CreationDate 14 0 R /ModDate 14 0 R >>
endobj
xref
PDF mit OCR (Titel hab ich aus Privacy Gründen angepasst):
/Producer (Abbyy FineReader 8)
/Creator (DEVONthink Pro Office 2.11.3)
/Title (2025-12-17 MTN Forum EUR500.00.pdf)
/CreationDate (D:20250201184919+01'00)
/ModDate (D:20250201184919+01'00)
>>
endobj
xref
Wenn es sich ausschliesslich um selbst erzeugte PDFs handelt inkl. selbst durchgeführtem OCR Vorgang, könntest du evtl. auf gewisse Textbestandteile "grepen", wie z.B. den Namen der OCR Einheit, die hier "Abbyy FineReader" wäre. Aber wenn der ganze Ablauf eh unter deiner Kontrolle schon ist, lässt sich das natürlich anderweitig organisieren, sei es durch Dateinamenskonvention und/oder Ordner-basierte Sortierungen als Bestandteil des ganzen Vorgangs.
Bei "Fremd-PDFs" aus unterschiedlichen Quellen böte sich das weniger an, auch weil es die o.g. Situationen geben kann mit gemischten Seiten innerhalb derselben PDF-Datei.
Hilfreich?
0
xcomma
17.12.25
06:14
xcomma
[..] dass ein solches PDF beides enthalten kann
Unglücklich, aber es gibt solche zusammengeschusterten PDFs. Das was mir untergekommen war, war sogar ein offizielles Anmeldeformular von einer Organisation. Ein Teil war generiertes PDF, quasi direkt aus einem "Word" herausgeneriert wie man das halt so kennt/macht, dann aber wurden weitere Seiten hinzugefügt als PDF-Bild, obwohl deren Inhalt ebenfalls nur textueller Natur war.
Hilfreich?
0
Oceanbeat
18.12.25
15:43
Ich habe jetzt testweise die Livetext Funktion im System deaktiviert. Es lassen sich keine Texte mehr aus dem Scan kopieren.
Nach dem Download von Howard Oakleys „podofyllin14“ und öffnen des betr. PDF, bleibt die rechte Spalte in der App auch leer. Also ist davon auszugehen, dass kein OCR Erkennung durchgelaufen ist. Im Source Infofenster findet man dort folgendes Summary:
„Wenn das Universum expandiert, werden wir dann alle dicker...?“
Hilfreich?
0
Oceanbeat
18.12.25
15:47
Bedeutet das Summary, dass es sich nicht um einen reinen Dokumenten-Scan handelt, weil dort Objects angegeben werden...?
„Wenn das Universum expandiert, werden wir dann alle dicker...?“
Hilfreich?
0
Nebula
18.12.25
17:25
Es können schön mehrere Objekte für ein einzige Bild vorhanden sein. Das Bild selbst, eine Bildrahmen, der es beschneidet, ein Rahmen für die Seitenbegrenzung (Bounding Box), vielleicht noch eine weiße Fläche. Kommt drauf an, wie und womit die Datei erstellt wurde. Eigentlich kann dir das egal sein. Wenn nicht, müsstest du das mit dem PDF-Editor verifizieren können.
Hilfreich?
0
Oceanbeat
19.12.25
09:47
Der Ausgangspunkt meiner Recherche war der Verdacht auf eine Manipulation des PDF Dokuments. Bei dem PDF handelt es sich vorgeblich um den Scan eines in Papierform vorliegenden originalen Vertragstextes inklusive Unterschriften und Stempel auf der letzten Seite. Beim Betrachten der Unterschriftenseite fällt sofort ins Auge, dass die horizontalen feinen Hilfslinien des Formulars in einer Ebene über den Unterschriften und dem Stempel liegen. Die Unterlängen der farbigen Unterschriften sowie der blaue Stempel liegen also unterhalb dieser schwarzen Hilfslinien.
Ich kann leider keinen Screenshot hier einstellen, da es sich um ein vertrauliches Dokument handelt.
Wie kann das bei einem normalen Scanvorgang eines Papierdokuments zu Stande kommen oder gibt es irgendeine andere Erklärung hierfür? Falls nicht, muss das Dokument doch irgendwie erzeugt worden sein. Einen Hinweis auf ein Erzeugerprogramm konnte ich bislang nicht finden, nachdem ich das PDF in einem Texteditor geöffnet hatte.
Beim öffnen des Dokuments im Illustrator zeigt sich, dass es mehrere verschiebbare Rahmen mit Rastergafiken enthält. Es sind keine Vektorelemente vorhanden. Unsicher bin ich mir dabei, ob es sich eventuell nur um eine Interpretation des Illustrators handelt.
So, der Komissar muss jetzt erstmal frühstücken…
„Wenn das Universum expandiert, werden wir dann alle dicker...?“
Hilfreich?
0
oxid
20.12.25
05:31
Oceanbeat
Bist du dir absolut sicher dass die Unterschrift und Stempel hinter den Linien liegen? Sind die vielleicht doch übereinander liegend?
Was aber darauf hindeuten würde dass das Dokument zusammengebaut wurde: ist Stempel und Unterschrift in Illustrator verschiebbar?
Hilfreich?
0
Kommentieren
Sie müssen sich
einloggen
, um sich an einer Diskussion beteiligen zu können.
TechTicker
Neuer Apple-Bildschirm durch Regulierungsbehörd...
Die RAM-Preise explodieren – was viele Geräte b...
Vor 20 Jahren: Jobs präsentiert den ersten Mac ...
Apple zwingt faktisch zum Upgrade auf iOS 26.2 ...
Bloomberg: iOS 27 mit vielen Aufräumarbeiten – ...
Gibt Apple "iWork" als Marke auf? Neue Software...
Branchenstimme: RAM-Verknappung killt Produkte ...