Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Entwickler>OCR im Finder mit Hazel-Regel und DevonThink-OCR-Engine?

OCR im Finder mit Hazel-Regel und DevonThink-OCR-Engine?

killerspots13.03.2315:46
Moin zusammen,
gleich mal vorne weg: meine scripting-Kenntnisse gehen Richtung Null. Ich wäre also mega dankbar, wenn mir irgendwie jemand konkret weiter helfen könnte, am besten sogar mit ein paar Zeilen Code.

Folgende Situation.
Ich habe auf Finder-Ebene einige Ordner, die von Hazel überwacht werden und anhand von Dokument-Inhalten die Dateinamen angepasst werden. Die Hazel-Regeln habe ich soweit alle, das ist nicht das Problem und funktionieren auch so wie ich es mir vorgestellt habe. Ich möchte aber, dass Hazel vorher nun noch überprüft, ob die Dokumente denn überhaupt Text beinhalten und wenn nicht, dann soll vorher ein OCR stattfinden.

Nachdem die Dateien umbenannt wurden, werden sie dann in Devonthink importiert. Ich möchte die Umbenennungs-Arien nicht in DevonThink machen, ich empfinde Hazel hier als wesentlich besser konfigurierbarer als es mit DT möglich ist.

Nun ist die Frage, wie ich dieses vorher stattfindende OCR umsetzen könnte. DevonThink hat eine super OCR engine inkludiert, die auch scriptable ist. Könnte ich (oder jemand?!?! ) die OCR-engine ausserhalb von DT nutzen und innerhalb eines Hazel-Scriptes zum Laufen bringen um die Dateien in einem Ordner zu scannen? Ginge das?

Oder habt ihr andere gute Ideen? Ich will das ungerne nun noch über ein Synology Docker-Tool oder so laufen lassen müssen, sondern so unaufwendig und unsichtbar wie möglich automatisiert im Hintergrund laufen lassen.
Ich bin dankbar über jede Idee und Hilfe an dieser Stelle.

Tausend Dank
0

Kommentare

marm13.03.2316:03
Vertausche einfach die Reihenfolge im Prozess.
1. Umbenennen in Hazel
2. Import in Devonthink
3. Automatisches OCR aller neuen Dokumente per Regel in Devonthink. Ungefähr so (ungetestet):
0
killerspots13.03.2316:28
marm
Vertausche einfach die Reihenfolge im Prozess.
1. Umbenennen in Hazel
2. Import in Devonthink
3. Automatisches OCR aller neuen Dokumente per Regel in Devonthink. Ungefähr so (ungetestet):

ähm....
ich verstehe deinen Gedanken gerade nicht ganz. Ich möchte ja, dass Hazel die Dateien umbenennt anhand des Inhalts. Das kann Hazel aber erst, nachdem ein OCR drüber gelaufen ist. Also muss OCR vor Hazel kommen und dann der Import nach DevonThink.
0
marm13.03.2317:08
Devonthink kann OCR sicherlich auch in indizierten Ordnern durchführen. Sobald OCR durchgeführt wurde, bekommen die Dateien ein Merkmal (z.B. Schlagwort), was wiederum für Hazel ein Signal zur Weiterbearbeitung ist.
Ansonsten kannst Du nach dem OCR in Devonthink auch die Dateien in einen Hazel-überwachten Ordner exportieren.
+1
Drayton Manored13.03.2322:25
Erledige alles in DEVONthink. Das Hin und Her ist viel komplizierter, als einmal die Umbenennung richtig in DEVONthink anzulegen.

Man wird Dir im dortigen Forum weiterhelfen, den Anfang hast Du ja schon gemacht:
+1
marm13.03.2323:41
Mit tesseract (Installation z.B. per homebrew) kann per Kommandozeile ein OCR durchgeführt werden. Das OCR per Tesseract ist dann die Grundlage für die Berarbeitung in Hazel. Dieses OCR wird wohl als Grundlage für die Umbenennung der Datei in Hazel genügen.
Devonthink könnte nach dem anschließenden Import ein erneutes OCR durchführen, wenn die Qualität vom Abbyy-OCR besser ist.
Gemäß diesem uralten Vergleich (13 Jahre her) ist tesseract nicht arg schlechter als Abbyy
+1
killerspots14.03.2308:48
Drayton Manored
Erledige alles in DEVONthink. Das Hin und Her ist viel komplizierter, als einmal die Umbenennung richtig in DEVONthink anzulegen.

Man wird Dir im dortigen Forum weiterhelfen, den Anfang hast Du ja schon gemacht:
Genau das möchte ich aber eben nicht. Mir ist Hazel lieber als die DT-internen Regeln und Möglichkeiten diesbezüglich (Umgang mit Variablen und Platzhaltern, etc)
0
Nebula
Nebula15.03.2301:08
Bei Heise gibt’s ein Tutorial, wie man per JavaScript Apples OCR anzapft. Dürfte besser und flotter sein als Tesseract.
„»Wir werden alle sterben« – Albert Einstein“
+1
killerspots15.03.2301:41
marm
Devonthink kann OCR sicherlich auch in indizierten Ordnern durchführen. Sobald OCR durchgeführt wurde, bekommen die Dateien ein Merkmal (z.B. Schlagwort), was wiederum für Hazel ein Signal zur Weiterbearbeitung ist.
Ansonsten kannst Du nach dem OCR in Devonthink auch die Dateien in einen Hazel-überwachten Ordner exportieren.

Genau so habe ich es gemacht. Das war ne super Idee.
+1
marm15.03.2307:58
killerspots
Genau so habe ich es gemacht. Das war ne super Idee.
Um eine Endlosschleife zu verhindern, erhält die alte Datei den Namensbestandteil "alt" (sofern diese nicht überschrieben wird) und die neue OCR-Datei "neu". Hazel kann dann "alt" löschen und "neu" bearbeiten. Oder Du probierst Finder-Tags. Den Rest schafft schon das Devonthink-Forum
0
killerspots16.03.2308:27
marm
killerspots
Genau so habe ich es gemacht. Das war ne super Idee.
Um eine Endlosschleife zu verhindern, erhält die alte Datei den Namensbestandteil "alt" (sofern diese nicht überschrieben wird) und die neue OCR-Datei "neu". Hazel kann dann "alt" löschen und "neu" bearbeiten. Oder Du probierst Finder-Tags. Den Rest schafft schon das Devonthink-Forum
Ich habe es in der Tat anders gelöst. Ich habe in die smart rule in DevonThink einfach den Lösch-Befehl mit integriert. Da die smartrule nur die files sucht, die kein OCR haben, wird auch nur dieses File gelöscht, nachdem es OCRed wurde. Funktioniert auch.
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.