Forum>Software>Tool für Feinanalyse von Metadaten von Dateien (konkret: PDF)?

Tool für Feinanalyse von Metadaten von Dateien (konkret: PDF)?

jbq19.05.1912:27
In einer größeren DevonThink-Datenbank macht eine recht klar isolierbare Gruppe von PDF-Dokumenten Ärger.
Sie stammen aus völlig unterschiedlichen Quellen (Internet, eigene Scans, anderes). Ich würde mir diese Dokumente nun gerne genauer ansehen, ob es an irgendwelchen versteckten Eintragungen („Eigenschaften“) liegt.
Die Standardrechte habe ich mir bereits angesehen, da sehe ich keine Unterschiede.
Wenn es ein Tool gibt, mit dem sich ggf. auch entsprechend eingreifen ließe, ohne direkt ins Terminal zu gehen, wäre ich für einen Tipp dankbar!
JB
0

Kommentare

Bozol
Bozol19.05.1913:35
Definiere "Ärger".
+1
jbq19.05.1916:30
OK, das ist etwas komplexer: DT kennt einen speziellen Zugriff auf externe Dateien als „indiziert“. In meinen Fall „vermehren“ sich indizierte Dateien innerhalb der Datenbank, d.h. die Referenz vervielfacht sich, was große Mengen an Duplikaten bedeutet, das wiederum macht Ärger beim Synchronisieren, beim Recherchieren etc.
Der Support bei DT kennt das Problem so nicht.
Nehme ich die speziellen Dateien aus dem indizierten Ordner raus, ist das Phänomen weg - daher meine Überlegung, ob es etwas mit deren Eigenschaften zu tun haben könnte.
0
rmayergfx
rmayergfx19.05.1918:50
Das Kochbuch zum indizieren mal abgearbeitet?
Sind die PDFs denn durchsuchbar ?
„Der Computer soll die Arbeit des Menschen erleichtern, nicht umgekehrt !“
0
MikeMuc19.05.1919:35
Wo liegen diese PDFs (lokal oder Server; wenn Server, was für einer und wie verbunden)? Wir brauchen, wie so oft, mehr Input
0
jbq19.05.1920:29
Sorry - ich hab alles weggelassen, was ich meinte bereits ausschließen zu können:
- Die Daten liegen normalerweise in einem Dropbox-Ordner, aber das Phänomen tritt unabhängig davon auf (→ versuchsweise lokal abgespeichert und dann erneut indiziert, gleiches Problem).
- Ich habe innerhalb des Hauptordners in Dropbox ca. 2000 PDF indiziert, viele sind durchsuchbar, viele nicht, je nach Quelle. Das kann es eigentlich auch nicht sein - kritisch sind etwa 50.
- Dank für den Hinweis auf das Kochbuch - aber nein, die PDF sind nicht mehrfach vorhanden in der Quelle. DT gibt mir bei den Multiplikaten auch brav immer denselben Pfad und dasselbe Erstellungsdatum an - es sind „echte“ Duplikate _innerhalb_ DT, nicht außerhalb.
Merci für einen zweiten Blick!
0
rmayergfx
rmayergfx20.05.1909:50
Wenn das doch so einfach reproduzierbar ist, dann mit Quicktime den Bildschirm aufnehmen und genau den Ablauf aufzeigen der zu diesem Problem führt und das Ganze mit einem erklärenden Text an den Hersteller schicken. Die Bildschirmaufnahme kannst du mit iMovie noch passend zurecht schneiden und als MP4 exportieren.
Wenn mögliche (Datenschutz beachten) die "fehlerhaften" PDF Dateien mitschicken.
Vorraussetzung Devon Think ist auf der neuesten Version.

Passiert das ganze auch, wenn du eine neue Datenbank erstellst und die "fehlerhaften" PDFs indizieren lässt ?
„Der Computer soll die Arbeit des Menschen erleichtern, nicht umgekehrt !“
+1
promac
promac20.05.1911:56
jbq
Wenn es ein Tool gibt, mit dem sich ggf. auch entsprechend eingreifen ließe, ohne direkt ins Terminal zu gehen, wäre ich für einen Tipp dankbar!

Schon einmal versucht die Dateien in "Vorschau" zu öffnen und per "Druckdialog" (allerdings dann auf die Größe achten !!!) neu zu speichern ?
Das hatte bei mir schon bei einigen "seltsamen" PDFs zum Erfolg geführt ...
0
Hans-Ulrich20.05.1914:25
Hallo,

es wird nicht weiter helfen, aber unter Information die Angabe der Codierungssoftware mal vergleichen
„Gut Licht !“
+2
dan@mac
dan@mac20.05.1914:39
Du kannst auch jedes PDF ganz normal in einem Editor öffnen.

Vorher aber vielleicht einmal einige der Dateien hiermit prüfen: https://www.pdf-online.com/osa/validate.aspx
0
Bozol
Bozol20.05.1920:00
Hans-Ulrich
es wird nicht weiter helfen, aber unter Information die Angabe der Codierungssoftware mal vergleichen
Das wäre auch mein Tipp, und das Ganze gehz mit dem EXIFTool ganz leicht, einfach im Terminal ein

  • EXIFTool -"producer" ORDNER-MIT-PDFs > Liste-txt

und die Liste schaut dann so aus:
============= /Users/xxx/Documents/Dox/PDF/Preisliste_April_1998.pdf
Producer : Acrobat Distiller 6.0.1 (Windows)
======== /Users/xxx/Documents/Dox/PDF/TimeMachine auf grössere Platte kopieren.pdf
Producer : Mac OS X 10.6.4 Quartz PDFContext
======== /Users/xxx/Documents/Dox/PDF/T&Z2002.pdf
Producer : Mac OS X 10.10.4 Quartz PDFContext
======== /Users/xxx/Documents/Dox/PDF/EuroTR2_ABE.pdf
Producer : Acrobat 5.0 Image Conversion Plug-in for Macintosh
======== /Users/xxx/Documents/Dox/PDF/point_info.pdf
Producer : iText 2.1.7 by 1T3XT
======== /Users/xxx/Documents/Dox/PDF/Das-MONA-Festival-Programm.pdf
Producer : Adobe PDF Library 9.9

EXIFTool
0
jbq20.05.1921:50
Großer Dank an die Runde erst einmal! Ich antworte einzeln:
rmayergfx
Passiert das ganze auch, wenn du eine neue Datenbank erstellst und die "fehlerhaften" PDFs indizieren lässt ?
Ja. Das war mein erster Versuch - zumal ich damit Fehler durch Synchronisieren ausschließen konnte.
promac
Schon einmal versucht die Dateien in "Vorschau" zu öffnen und per "Druckdialog" (allerdings dann auf die Größe achten !!!) neu zu speichern ?
Habe ich ebenfalls probiert, u.a. mit GraphicConverter, der zudem Stapelverarbeitung anbietet. Leider ohne Erfolg.
Hans-Ulrich
es wird nicht weiter helfen, aber unter Information die Angabe der Codierungssoftware mal vergleichen
Das meint die Codierungssoftware für die PDF-Erstellung? Da bleibe ich skeptisch, da die Quellen extrem divers sind - einige habe ich selbst gemacht (mit zwei oder drei unterschiedlichen Programmen), der größere Rest stammt aus unterschiedlichen Ecken der Welt (= unterschiedliche Betriebssysteme, Konvertierungssoftware, etc.) Zum Teil ist das ja im Info-Fenster des Finders alles aufgelistet.
Bozol
Das wäre auch mein Tipp, und das Ganze gehz mit dem EXIFTool ganz leicht, einfach im Terminal ein
Das gehe ich nachher einmal an.
Aber darf ich noch einmal auf meine Eingangsüberlegung zurückkommen: Attribute der Dokumente auf Finder-Ebene (jenseits dessen, was ich im Finder-Info-Fenster sehe) können es nicht sein? ACL, X-Attribute … ?
0
jbq20.05.1922:10
Nachtrag: Dank für den Hinweis auf das Tool, beeindruckend …
Der Ertrag ist, wie erwartet, uneinheitlich:
Producer : Adobe Acrobat 10.0 Paper Capture Plug-in
Producer : Adobe PDF Library 9.0
Producer : KONICA MINOLTA bizhub C364e
Producer : Mac OS X 10.11.5 Quartz PDFContext
Producer : Mac OS X 10.8.2 Quartz PDFContext
Producer : PDFlib+PDI 7.0.3 (JDK 1.4/Linux)
Producer : PDFlib+PDI 8.0.5 (JDK 1.4/Linux-x86_64)
Producer : PDFlib+PDI 8.0.5 (JDK 1.6/Linux-x86_64)
Producer : PDFpen
Producer : PDFpenPro
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.

OK MacTechNews.de verwendet Cookies unter anderem für personalisierte Inhalte, Seitenanalyse und bei der Auslieferung von Google-Anzeigen. Dies war zwar schon immer so, auf Wunsch der EU muss nun jedoch explizit darauf hingewiesen werden. Durch Nutzung der Website erklären Sie sich damit einverstanden. Weitere Informationen