PDF OCR Droplet zur freien Verwendung

Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Forum>Software>PDF OCR Droplet zur freien Verwendung

maybeapreacher15.06.2013:16

Hallo zusammen,

ich möchte Euch ein kleines Droplet zur Verfügung stellen das vielleicht für den einen oder die andere hilfreich sein könnte. Meiner Frau nimmt es die Arbeit erheblich ab.
Ihr scannt oft Dokumente, die PDF ist dann aber nicht durchsuchbar noch der Text kopierbar, da es eben nur Bildinformationen sind?

Drag&Drop auf ein Symbol im Dock, und die PDF wurde mit OCR versehen.

Nach der Diskussion und der zur Verfügung gestellten Lösung in diesem Thread als Ordneraktion, hier als Droplet. Die Ordneraktionen funktionieren zwar, müssen aber immer wieder eingeschaltet werden und scheinen von Apple auch nicht mehr gewollt zu sein. Jedenfalls wird gewarnt dass es eine alte Funktion sei.

Vorraussetzungen: ocrmypdf, installiert über brew.

Brew installieren: https://brew.sh/index_de
ocrmypdf installieren:
brew install ocrmypdf
falls gewünscht, die deutsche (und andere als eng) Sprachunterstützung installieren:
brew install tesseract-lang

Danach einfach das Droplet runterladen, irgendwo auf die Festplatte legen, ins Dock ziehen und freuen. PDFs können nun per Drag&Drop auf das Droplet fallen gelassen werden, und werden mit OCR gescannt und versehen. Schiefe Seiten werden dabei auch noch begradigt sowie Seiten die auf dem Kopf stehen korrigiert:

Ihr könnt die Datei mit dem Script Editor öffnen und überprüfen was ich da mache.

Wen es interessiert: Es basiert einfach auf der Automator-Vorlage "Droplet" und das einzige was ich geändert habe ist, oben bei gültigen Dateitypen "pdf" einzufügen sowie unten in der Aktion folgenden Code auszuführen:

set com to "export LANG=de_DE.UTF-8; export LC_ALL=de_DE.UTF-8; PATH=/usr/local/bin:$PATH; ocrmypdf -l deu+eng --deskew --rotate-pages" & " " & quoted form of POSIX path of this_item & " " & quoted form of POSIX path of this_item
do shell script com

Dachte, ich stelle es Euch mal zur Verfügung, vielleicht hilft es jemandem!

Viele Grüße aus Frankfurt

+13

Kommentare

DocTom15.06.2015:10

Vielen Dank, das sieht sehr gut aus!

beanchen15.06.2015:27

Herzlichen Dank! Bin auch noch bei den Ordneraktionen und genervt.

„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“

beanchen15.06.2015:55

Kleine Rückmeldung:
Bei einem Scan (PDF) mit Textanmerkung kommt folgender Fehler:

ERROR - 1: page already has text! - aborting (use --force-ocr to force OCR)

Als Text ist tatsächlich nur die Anmerkung (Datum) drin.
Ansonsten läuft es top! 👍

„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“

maybeapreacher15.06.2016:11

Freut mich das es Anklang findet

beanchen: Wenn Du/ihr mögt, könnt ihr die die Datei im Script Editor öffnen und den Befehl ändern.

Da wo "ocrmypdf -l deu+eng"... steht, könntet ihr folgende Option(en) einbauen:

-f : erzwingt OCR auch auf Seiten die schon Text enthalten
-s : überspringt OCR für die Seiten die schon Text enthalten. Die Seite selbst bleibt aber trotzdem Teil des PDFs
--redo-ocr : Entfernt den bereits vorhandenen OCR Teil aus dem PDF und erstellt OCR für alle Seiten neu.

Aus dem Befehl im Script würde dann z.B: das hier werden:

ocrmypdf -f -l deu+eng
oder: ocrmypdf -s -l deu+eng
oder: ocrmypdf --redo-ocr -l deu+eng

beanchen15.06.2016:12

Danke für die schnelle und ausführliche Antwort, ich werde das heute Abend testen!

„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“

Philantrop15.06.2017:57

Gleich mal ausprobieren. Ich hab mich noch nicht getraut hier im Forum mal zu fragen, ob jemand Brew einsetzt Bin ein großer Freund und versuche den Großteil meiner Software hierüber zu beziehen

KarstenM15.06.2018:14

Philantrop

Gleich mal ausprobieren. Ich hab mich noch nicht getraut hier im Forum mal zu fragen, ob jemand Brew einsetzt Bin ein großer Freund und versuche den Großteil meiner Software hierüber zu beziehen

Ich tue das tuen.
Bin ebenfalls ein Freund davon. Gibt viele nützliche kleine Helfer dort.

camaso15.06.2018:43

Das sieht sehr interessant aus. Bevor ich die Installation anwerfe: Wie gut ist die OCR verglichen bspw. mit Acrobat oder Prizmo oder anderen? Und welche Sprachen stehen zur Verfügung? Insbesondere Chinesisch wäre für mich wichtig. Danke für kurze Info!

KarstenM15.06.2018:59

camaso

Wie gut tesseract ist kann ich nicht sagen. Ich hatte das nur mal Testweise laufen. Zum Sprachsupport findest du hier was (https://tesseract-ocr.github.io/tessdoc/Data-Files)

maybeapreacher15.06.2019:01

camaso: Zur Qualität im Vergleich kann ich Dir wenig sagen. Ich bin sehr angetan von den Resultaten in Englisch und Deutsch.

Zur Chinesischen Erkennung kann ich nichts sagen. Zur Verfügung stehen alle Sprachen die Tesseract mitbringt. tesseract --list-langs ergibt gleichzeitig auch die Codes die dann in den Befehl eingebaut werden müssen.

Ich nutze nur Deutsch und Englisch, deshalb habe ich: -l deu+eng
Weitere benötigte Sprachen einfach per + hinzufügen. z.B. glaube Afrikaans:
-l deu+eng+afr

Codes die Tesseract ausgibt:
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bre
bul
cat
ceb
ces
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
chr
cos
cym
dan
deu
div
dzo
ell
eng
enm
epo
est
eus
fao
fas
fil
fin
fra
frk
frm
fry
gla
gle
glg
grc
guj
hat
heb
hin
hrv
hun
hye
iku
ind
isl
ita
ita_old
jav
jpn
jpn_vert
kan
kat
kat_old
kaz
khm
kir
kmr
kor
kor_vert
lao
lat
lav
lit
ltz
mal
mar
mkd
mlt
mon
mri
msa
mya
nep
nld
nor
oci
ori
osd
pan
pol
por
pus
que
ron
rus
san
script/Arabic
script/Armenian
script/Bengali
script/Canadian_Aboriginal
script/Cherokee
script/Cyrillic
script/Devanagari
script/Ethiopic
script/Fraktur
script/Georgian
script/Greek
script/Gujarati
script/Gurmukhi
script/HanS
script/HanS_vert
script/HanT
script/HanT_vert
script/Hangul
script/Hangul_vert
script/Hebrew
script/Japanese
script/Japanese_vert
script/Kannada
script/Khmer
script/Lao
script/Latin
script/Malayalam
script/Myanmar
script/Oriya
script/Sinhala
script/Syriac
script/Tamil
script/Telugu
script/Thaana
script/Thai
script/Tibetan
script/Vietnamese
sin
slk
slv
snd
snum
spa
spa_old
sqi
srp
srp_latn
sun
swa
swe
syr
tam
tat
tel
tgk
tha
tir
ton
tur
uig
ukr
urd
uzb
uzb_cyrl
vie
yid
yor

beanchen16.06.2017:18

camaso

Wie gut ist die OCR verglichen bspw. mit Acrobat oder Prizmo oder anderen?

Nach den ersten Tests würde ich behaupten die reine Texterkennung ist besser als bei Acrobat, die Erkennung was wo dazugehört (Blöcke, Zeichen, Randbemerkungen) ist schlechter. Textauswahl im fertigen Dokument ist damit teilweise nicht so einfach. Benutzt man die Dokumente nur zum durchsuchen, kann einem das aber egal sein. Trefferquote liegt da bei mir bisher bei 100%

„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“

camaso16.06.2020:59

Da das meine Hauptanwendung ist, probiere ich es gelegentlich auch aus. Danke euch allen!

maybeapreacher17.06.2011:45

Eine Info die mir gerade noch einfällt:
Ihr könnt auch ganze Ordner voller PDFs auf das Droplet werfen.
Ihr seht am Icon im Dock ob er fertig ist oder nicht. Läuft noch = Punkt unter dem Icon. Fertig = Punkt weg.

Habe jetzt aber nicht getestet was mit Fehlern bei einzelnen PDFs passiert etc.

Ein Testordner wurde komplett mit OCR versehen.

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.

Siri AI im Praxistest

Virtualisierung am Mac: Was kann sie, und wie s...

iPhone Ultra: Zeitplan

Logoist 6 erschienen

watchOS 27: Radikaler Kahlschlag bei der Hardwa...

Test KEF Coda W

Mehrere milliardenschwere Großübernahmen: Fox/R...

Test eversolo DAC Z10