Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Dateigrösse von .pdf-Files

Dateigrösse von .pdf-Files

Digitalo
Digitalo18.11.1123:26
MTN scheint momentan zu stottern, jedenfalls erscheint bei der Suche immer folgende Meldung.

Kann mir jemand einen Tipp oder Hinweis geben, wo ich mich über .pdf-Dateien und den Speicherplatz, den sie benötigen, informieren kann.

Eine eingescannte Seite A4 mit Text und Bild bekomme ich nicht unter 1 MB, ausser ich wähle eine Einstellung, die das ganze Layout zerschiesst. Scanner: 'HP Photosmart Premium'

Andererseits habe ich ein 234-seitiges Handbuch mit Text und Graphik, das gerade Mal 3.6 MB verbraucht.

Wie bekommt man den Speicherplatz runter, so dass auch ein vielseitiges Dokument per Email gesendet werden kann, ohne dass man es auseinander pflücken muss.

Danke schon im Voraus
0

Kommentare

Mr. Krabs
Mr. Krabs18.11.1123:43
Wenn du Seiten einscannst, werden diese als Bildinformationen gespeichert. Und das ist je nach Kompression mal mehr, mal weniger. Für die PDF ist das aber erstmal nur Bild.
Das Handbuch hat vermutlich verschiedene Elemente, Text und Bild. Und der Textanteil wirkt sich nicht wirklich auf die Größe aus.

Was du probieren kannst sind OCR-Lösungen. Ob das dann zufriedenstellend ist, sei dahingestellt.
„Deux Strudel!“
0
Digitalo
Digitalo19.11.1100:17

Softwaremässig habe ich verschiedene Möglichkeiten.

1. .tiff .jpeg, .pdf usw. als Bild. Die fressen noch mehr Speicher.
2. .'pdf als reiner Text' (OCR). Da wird das Layout zerschossen und was nicht reiner Text ist oft kryptisch. Braucht wenig Speicher.
3. 'Text über Bild' (OCR). Siehe 2. Braucht aber etwas mehr Speicher
4. 'Bild über Text' (OCR). Das Resultat ist perfekt, mit einem MB oder mehr pro Seite muss ich jedoch rechnen. Das erwähnte Handbuch hätte also hier eingescannt ca. 234 MB Speicherplatz verbraten.

Hätte ich heute ein ganzes Dokument am Stück gemailt (was ich natürlich gerne getan hätte), wären ca. 30 MB unterwegs gewesen.
Das nimmt nicht jede Mailbox an.
Vor eineinhalb Jahren hatte ich mit einer Bank zu tun. Telefonisch wurde mir erklärt, Emails mit mehr als 5 MB kämen nicht in die Mailboxen. Warum auch immer. Briefbomben werden ja auf diesem Weg keine verschickt.

Wie macht ihr das?
Vielseitige .pdf-Dokumente zu senden ist doch nichts Ungewöhnliches.
Oder schickt ihr 30 oder 50 MB schwere Pakete durch den Äther und die kommen problemlos bei den Empfänger an?

Es muss doch eine Lösung geben, die in die Nähe des erwähnten Handbuches kommt.
Wie wird eine solche Datei hergestellt?
0
Blubs
Blubs19.11.1100:37
Hast Du das Posting von Herrn Krabs wirklich nicht gelesen? Steht alles drin.
0
Digitalo
Digitalo19.11.1101:03
Doch, habe ich. Mehr als ein Mal. Wenn ich da trotzdem im Dunkeln stehen sollte, hilf mir bitte auf die Sprünge. Ich hab's nämlich wirklich nicht begriffen.
Mr. Krabs
Wenn du Seiten einscannst, werden diese als Bildinformationen gespeichert. Und das ist je nach Kompression mal mehr, mal weniger. Für die PDF ist das aber erstmal nur Bild.
Sehe ich. Siehe Punkt 1. Der Kompressionsfaktor ist je nach Bildformat unterschiedlich.
Mr. Krabs
Was du probieren kannst sind OCR-Lösungen. Ob das dann zufriedenstellend ist, sei dahingestellt.
Die Texterkennung OCR, geschieht bei 2. 3. & 4. mit den erwähnten unterschiedlichen Ergebnissen.

Was verstehe ich nicht im Posting von Mr. Krabs?





0
Digitalo
Digitalo19.11.1101:43

An Blubs

Konkret:
Textblatt, zweispaltig mit 6 handschriftlichen Einträgen:

PDF nur Text / 287 KB / OCR / Layout stark zerschossen.
PDF Text über Bild / 483 BB / OCR / Layout deutlich zerschossen.
PDF Bild über Text / OCR / 926 KB / Layout entspricht dem Original (bei gewissen Dokumenten wird, vermutlich durch die Schrifterkennung, die Schrift geändert).
PDF nur Bild / kein OCR / 1.3 MB / Layout entspricht dem Original.

.rtf (ist sinnvoll, wenn lediglich der Text zur Weiterbearbeitung gebraucht wird) und weitere Bildformate (benötigen mindestens den Platz von 'PDF nur Bild) lasse ich weg.



0
tangoloco19.11.1101:52
Oh Götter gebt Ihm Geist!

Da steht:
1, 3, 4 ist kein OCR text.
Bilder sind pixel (und kein OCR-Ergebniss) und brauchen daher Platz für jeden Pixel Platz. Und wenn zu hoher Kompressionsfakter dann du nix mehr erkennen Text.

2. Echter (ACSII) Text ist nur sehr wenig code.
OCR ist eine Möglichkeit aus gescannten Textstellen ACSII Textdateien zu erzeugen. Wenn beim OCR (Optical Character Recognition) man nur kyptische Zeichen erhält, ist entweder das Bild schräg oder in zu geringer Auflösung ... so das die OCR-Software kein chance hat, oder die OCR Software ist bullshit.

So mal auf die Kürze.

PS: schon mal das Handbuch deiner OCR Software gelesen?
„... sehr veraltete mentale Schaltkreise lassen Menschen überall geheimnisvolle Kräfte vermuten“
0
Digitalo
Digitalo19.11.1101:55
Um zum Handbuch zurück zu kommen:
'PDF nur Bild': 234 x 1.3 MB anstatt 3.6 MB

Nein, ich hab's noch nicht begriffen.
0
Digitalo
Digitalo19.11.1102:13
An tangoloco

Vielleicht kommt der Geist ja noch.

Dass 1. nichts mit OCR zu tun hat ist mir klar. Ebenso dass Bilder durch Pixels aufgebaut sind.

Weshalb ist 2. bis 4. nicht OCR?
Skim findet bei 2 bis 4 die gesuchten Wörter. Geht ja nicht ohne vorherige Texterkennung, oder.

"Wenn beim OCR (Optical Character Recognition) man nur kyptische Zeichen erhält..."
Nicht nur, aber bei wenig textlastigen Seiten (zB. mit Situationsplänen) kommt es vor.

Ob Die OCR-Software bullshit ist, weiss ich nicht.
0
LordLasch19.11.1107:05
es kommt natürlich auch auf das OCR-Programm an, wenn das Layout komplett zerschossen wird, dann taugt die Software vielleicht nicht so viel oder aber das Layout der Vorlage ist einfach ein bisschen zu komplex(?).

Ich habe in letzter Zeit nur OCR unter Windows benutzt, kann daher fürn Mac keine Empfehlungen geben. Ich scanne jedoch zunächst als Bild mit 400 oder 600dpi ein, hab dann ein sehr großes File und lasse danach OCR drüberlaufen. Da schleichen sich dann ein paar Fehler ein und ein paar Artefakte verbleiben als Bild in der Datei, aber man bekommt 100 Seiten auf 1mb verkleinert. Je höher die Auflösung die du wählst, desto besser ist die Texterkennung.

Vielleicht sind aber auch deine Erwartungen einfach zu hoch? Für nen 1:1 Scan mit OCR und Bildern in guter Qualität würde ich persönlich mit meinen Mitteln ewig brauen. Die Automatik macht Fehler und man müsste jede Seite durchgehen und vor der Umwandlung absegnen... aber vielleicht ist mir ja auch noch nicht DIE Software dafür übern Weg gelaufen?
0
dreyfus19.11.1108:18
Hast Du es einmal mit dem Quartz-Filter "Reduce File Size" probiert? Je nach Dokument arbeitet der manchmal ganz brauchbar, bei sehr kleinen Schriften oder niedrigem Kontrast können die Resultate allerdings unleserlich werden... Einfach in der Vorschau "Speichern unter…" wählen (bzw. unter Lion ein Duplikat erzeugen und dieses dann speichern), dann kann der Filter im Dialog ausgewählt werden.

Falls gar nichts wirklich geht (manchmal kommt man einfach nicht unter eine bestimmte Größe), einfach die Datei über einen Cloud-Dienst bereitstellen (ich mache das i.d.R. mit Dropbox) und nur den Link per Email versenden.
0
Bernd Eichhorn19.11.1109:12
Dem OCR-Thema ist eigentlich nichts hinzuzufuegen. Wenn du ein Handbuch hast, ist es bestimmt wuenschenswert, dort auch nach Text suchen zu koennen. Da kommst du um eine OCR-Loesung nicht drum rum. Und wenn dein OCR-Programm das nicht richtig hinbekommt, musst du wohl oder uebel ein besseres nehmen. Im Bereich des Dokumentenscannens gibt es Loesungen, die das beherrschen, was du moechtest. Die machen auch aus Text-Bildseiten gleich aussehende pdfs mit Bild und durchsuchbarem Text. Erfahrungen habe ich damit aber auch noch nicht, sowas steht erst auf meiner Anschaffungsliste.
0
Blubs
Blubs19.11.1110:03
Noch ne Erläuterung:
Die Kombinationen von Text + Bild etc. sind dazu gedacht, das Original in seinem Aussehen beizubehalten (Bild) und das PDF dennoch durchsuchbar nach Begriffen zu machen (Text).
Kleine PDFs gibt es allerding nur mit reinem Text. Gutes Aussehen ergibt sich dabei, denn die OCR hochauflösendes Material als Futter bekommt (≥300dpi) und es packt, eventuell eingebettete Bilder und Grafiken auch als Bilder an der richtigen Stelle in den text einzubetten.
Mit anderen Worten:
Ein Word-Dokument kann als PDF sehr kompakt ausfallen.
Ein gescantes Buch ohne OCR wird sehr groß. Immer.
Ein per OCR bearbeitetes gescantes Buch kann auch sehr kompakt werden, erfordert aber sehr viel Nacharbeit durch Dich.
Für den Rest bitte Wikipedia und Google bemühen.
0
Digitalo
Digitalo20.11.1117:12
Ich kömme auf eure Beiträge später zurück... Bin gerade unter Zeitdruck.
dreyfus

Falls gar nichts wirklich geht (manchmal kommt man einfach nicht unter eine bestimmte Größe), einfach die Datei über einen Cloud-Dienst bereitstellen (ich mache das i.d.R. mit Dropbox) und nur den Link per Email versenden.

Habe ich eben gemacht. Geht aber nur, wenn der Empfänger ebenfalls DropBox installiert hat, oder?


0
breaker
breaker20.11.1117:56
Ne, geht auch ohne, das er Dropbox hat.
0
Digitalo
Digitalo20.11.1119:07
Danke für den Tipp!
Werde nachlesen.
0
Cyco
Cyco20.11.1120:08
Es gibt auch das Tool/Plugin "compress pdf".
Damit kann man PDFs verkleinern, man sollte aber das PDF danach sichten, da gelegentlich die Bilder farblich nicht mehr in Ordnung sind.
0
Peco20.11.1121:36
Schonmal mit Adobe Acrobat getestet? Da lässt ja scannen mit verschiedensten Parametern (inkl. JPEG2000 usw.) sowie OCR ist eingebaut. Die kleinsten Dateien bekomme ich mit der Clearscan Einstellung, die wohl Bild und Text pixelgenau mischt, damit alles aussieht wie "Bild".

Lässt sich gut automatisieren und arbeitet mit jedem Scanner.

A4 Rechnungs- und Korrespondenzscans liegen bei 50-70kB pro Seite A4.

Schau mal in der Help:
http://help.adobe.com/en_US/acrobat/pro/using/WS58a04a822e3e50102bd615109794195ff-7f71.w.html

Viel Erfolg!
0
kbundies
kbundies20.11.1123:54
Bilder nehmen sehr viel Platz weg, da jedes Pixel definiert sein muss.
Wenn ein PDF aber aus Text besteht, reicht es, die Form der Buchstaben als Vektor zu speichern. Das nimmt kaum Platz weg und lässt sich in erstklassiger Qualität in allen Grössen darstellen.
Am besten würdest Du also theoretisch fahren, wenn Du das Handbuch abtippen würdest und in den Text dann die paar Abbildungen einfügst. Dann bekommst Du die kleinen Dateigrössen, die Du am Anfang erwähnst.
Beim Scannen hast Du halt den ganzen Text unnötigerweise als datenaufwendige Bilder gespeichert. Die PDF-Datei ist ja nur der Container, der die Texte, das Layout und die Bilder beinhaltet.
0
Digitalo
Digitalo23.11.1123:53
Blubs
Hast Du das Posting von Herrn Krabs wirklich nicht gelesen? Steht alles drin.
Mr. Krabs schreibt eine knappe Kurzusammenfassung, die ja auch richtig ist. Weshalb eine gescannte A4 Seite 1MB verbrät, während in 1 MB 65 Seiten (also das 65-fache an Inhalt) des Handbuches mit Text und Bild untergebracht sein können, klärt mir sein Posting jedoch noch nicht.

Noch ne Erläuterung:
Die Kombinationen von Text + Bild etc. sind dazu gedacht, das Original in seinem Aussehen beizubehalten (Bild) und das PDF dennoch durchsuchbar nach Begriffen zu machen (Text).
Ja, ich weiss.
Bei der Einstellung ' Bild über Text' bleibt das Layout ja auch unverändert erhalten und die OCR-Erkennung ist mindestens so gut, dass ich nichts händisch nachkorrigieren muss. Lediglich spezielle Schriften werden durch OCR geändert( 19.11.11 01:43).
Ein gescantes Buch ohne OCR wird sehr groß. Immer.
Ja, weil rein als Bild gespeichert, ich weiss.
Die Eingangsfrage war ja: Was mach ich, wenn ich beispielsweise 35 Seiten PDF mit Text, Bilder, Grafiken, Unterschriften usw. scanne, die mit der Einstellung 'Bild über Text' perfekt als PDF herauskommen, die ich dann aber per Email versenden muss? Da komme ich im Extremfall auf über 35 MB.


Ein per OCR bearbeitetes gescantes Buch kann auch sehr kompakt werden, erfordert aber sehr viel Nacharbeit durch Dich.
Das Format wird erst nach dem Scannen beim Speichern festgelegt (elf Varianten). Die Texterkennung I.R.I.S 2006 wurde mit dem Scanner mitgeliefert, hat schon fünf Jahre auf dem Buckel.
Eine vergilbte Seite aus einem alten Buch mit kleiner Schrift (subjektiv weniger als 12) als PDF mit Texterkennung braucht 160 kb. Nachkorrigieren muss ich wirklich nichts. Die Software scheint also gut zu sein.
0
Digitalo
Digitalo24.11.1100:03
LordLasch
Vielleicht sind aber auch deine Erwartungen einfach zu hoch?
Bezüglich Reduktion des benötigten Speicherplatzes vielleicht schon.
Für nen 1:1 Scan mit OCR und Bildern in guter Qualität würde ich persönlich mit meinen Mitteln ewig brauen. Die Automatik macht Fehler und man müsste jede Seite durchgehen und vor der Umwandlung absegnen... aber vielleicht ist mir ja auch noch nicht DIE Software dafür übern Weg gelaufen?
Da mache ich glücklicherweise besserer Erfahrungen (siehe Beitrag 23.11.11 23:53).
Welche Software verwendest Du?
0
Digitalo
Digitalo24.11.1100:10
Cyco
Es gibt auch das Tool/Plugin "compress pdf".
Damit kann man PDFs verkleinern, man sollte aber das PDF danach sichten, da gelegentlich die Bilder farblich nicht mehr in Ordnung sind.

Habe danach gegoogelt, auch nach anderen Apps, fand aber keines, das wirklich erfolgsversprechend zu sein scheint.
0
Digitalo
Digitalo24.11.1100:24
dreyfus
Hast Du es einmal mit dem Quartz-Filter "Reduce File Size" probiert?

Habe es eben mit 'Reduce File Size' versucht.
Die Datei wird zwar von 1,3 MB auf 37 Kb reduziert, benötigt also nur noch 2.
,84 % des Originals, falls ich richtig rechnete.

Um welchen Faktor die Dateigrösse reduziert werden soll, lässt sich offenbar nicht einstellen.
Das Resultat ist leider nicht brauchbar:

Original:
0
Digitalo
Digitalo24.11.1100:25
Ergebnis:
0
Digitalo
Digitalo24.11.1100:53
kbundies
Am besten würdest Du also theoretisch fahren, wenn Du das Handbuch abtippen würdest und in den Text dann die paar Abbildungen einfügst. Dann bekommst Du die kleinen Dateigrössen, die Du am Anfang erwähnst.
Beim Scannen hast Du halt den ganzen Text unnötigerweise als datenaufwendige Bilder gespeichert. Die PDF-Datei ist ja nur der Container, der die Texte, das Layout und die Bilder beinhaltet.

Nun habe ich dazugelernt.

Mit anderen Worten: Der Scanner schafft es nicht, das, was er 'sieht', auf dasselbe Minimum an Informationen zu reduzieren, das im Erstellungsprogramm erzeugt und gespeichert wurde.

Oder so: Ein aus einem Erstellungsprogramm erzeugtes PDF (wie das erwähnte Handbuch) ist um vieles kleiner als ein gescanntes.

Danke für Deine Erklärung!

0
sierkb24.11.1101:30
Evtl. einen Seitenblick auch in anderen Fällen wert (insbesondere, wenn Adobe Illustrator die PDFs erzeugt hat):

ShrinkIt von Panic:
0
Digitalo
Digitalo24.11.1102:17
sierkb
ShrinkIt von Panic:

Merci!

Habe etwa zehn gescannte PDFsmit Listendarstellungen, Text & Bild auf 'ShrinkIt' gezogen, alle so um die 1 bis 1,5 MB. Die Dateigrösse blieb immer die selbe.
Werde die Homepage morgen genauer durchlesen.

Hast Du praktische Erfahrungen mit 'ShrinkIt' gesammelt?

0
Krypton24.11.1106:03
Shrink-It wird dir in deinem Fall nicht helfen. Auf der Panic Website steht, dass es vor allem PDFs aus Adobe Illustrator verkleinern kann, da es Vorschau-Thumbnails, Farbpaletten, Muster-Einstellungen etc. entfernt. All das ist aber in deinen PDFs sowieso nicht drin.

Ich weiß nicht, ob es dir inzwischen klar ist, wo das Problem liegt. Daher ein weiterer Versuch der Erklärung:


PDF Dokumente

Ein PDF-Dokument ist ein so genannte Container-Format. Wie du in einen Container entweder kleine Erbendosen oder ganze Autos packen kannst, kannst du in einem PDF auch eine Menge an Daten speichern:

1. Text
Text ist gemessen an heuteigen Dateigrößen sehr klein, da pro Buchstabe nur wenige Bytes an Daten gespeichert werden müssen. So wäre etwa der ganze Text aus der Bibel als PDF etwa 5 MB groß, in einer Textdatei ohne jegliches Layout (also als einfacher Text) kommt man auf etwa 4 MB.

Eine Besonderheit bei PDF ist hierbei, dass es das original Layout eines Textes erhalten kann, inklusive Schriftformatierung, Farben, Positionen und der Schriftart selbst.

2. Bilder
Im PDF kannst du auch Bilder speichern. Das können sowohl hochaufgelöste TIFF-Grafiken (mit sehr viel Speicherbedarf) als auch JPEG-Bilder (mit weniger Speicherbedarf) oder schwarz/weiß Grafiken sein.

3. Multimedia
In einem PDF kannst du auch Musik, Videos und Animationen speichern. Außerdem 3D Modelle

4. Alles andere
Ebenfalls in ein PDF passen Zip-Dateien, Word-Dokumente oder was du sonst noch an Dateien rumligen hast. Alles passt in den »Container« PDF.

Das fürhrt dazu, dass kein PDF dem anderen gleichen muss. Wenn jemand sagt: »Ich hab’ den Text als PDF« dann heißt das erstmal garnichts. Denn er kann den Text als »reinen Text« haben, als »Pixelgrafik« als abgefilmten Text in einem Video oder sogar in einem 3D Modell eines Textes.


Dein Fall

Du gehst in deinem Fall von zwei verschiedenen PDFs aus und versuchst, deren Größe zu vergleichen, bzw. ein PDF auf die Größe eines anderen zu schrumpfen.

Das »kleine« Handbuch, welches du als »Referenz« hernimmst, ist dabei folgendermaßen aufgebaut: Der Text im Handbuch ist im PDF als »Text« hinterlegt. Da die Schriftart und die Formatierung (Schriftgröße, Farbe, etc…) auch im PDF drin sind, sieht die Darstellung aus wie das Gedruckte Ergebnis. Jedoch braucht das sehr sehr wenig Speicherplatz. Beim Öffnen wird das PDF »gerendert«, das bedeutet, dass der Acrobat-Reader oder Vorschau die Informationen im PDF liest, den »kleinen« Text hernimmt und ihn mit der passenden Schriftart und den Farb-Informationen dann in »schön« darstellt.

Hin und wieder sind in dem Handbuch auch Bilder drin. Diese sind dann als Pixelgrafiken drin und brauchen ansich etwas mehr Speicherplatz, da es aber nur alle paar Seiten vorkommt und die Grafiken vermutilch nicht besonders hoch auflösend sind, hält sich der Gesamt-Speicherplatz in Grenzen. Trotzdem dürften die Bilder im Handbuch für den größten Teil der Dateigröße verantwortlich sein.

Dazu noch ein kleines Rechenbeispiel: Der Text dieses ganzen Diskussion (abzüglich meiners Beitrags – abgespeichert als .RTF-Datei in TextEdit) hat etwa 20 kb Dateigröße. Die zwei Bilder in dieser Diskussion haben dagegen 176 kb an Größe. Eine Schrift-Datei (zur Darstellung des Textes) hat etwa 200 kb an Daten. Gesamt bräuchte ich also zur Darstellung dieses Threads ungefähr 400 kb an Daten.

Wenn ich jetzt anstatt der Einzelteile (Text, Schrift, Bilder) von dem ganzen Thread Screenshots erstelle, haben diese im PNG-Format schon 1,2 MB sind also etwa 3x so groß. Zudem kann ich in den Screenshots den Text ja nicht markieren, da der Mac nicht mehr weiß, dass die Bilder überhaupt Text enthalten (und nicht etwa einen Sonnenuntergang). Wenn ich jetzt die Text-Informationen noch »hinter« die Screenshots legen möchte, so dass ich was zum Markieren habe und mit der PDF-Suchfunktion auch »Text« finde, dann werden es noch mehr Daten.

Man könnte jetzt die PNG-Grafiken noch als JPEG speichern, da hier die Dateigröße oft kleiner wird, allerdings ist die JPEG-Komprimierung auf Fotos ausgelgt (große Flächen, weiche Farbverläufe) und kann bei Text sogar zu noch größeren Dateien führen. In einem ersten Test wurden aus den 1,2 MB meiner Screenshots im JPEG-Format sogar 2,5 MB. Nur mit extremen Einstellungen (und entsprechend schlechter Qualität) bin ich dann auf 600 kb runter gekommen, aber auch das ist noch mehr als die ursprünglichen Daten aus Text, Schrift und Bildern.

In deinem gescannten Dokument tritt nun genau der Fall ein. Text wird nicht als Ansammlung von Buchstaben gespeichert, sondern als Grafik/Photo/Pixelbild. Das braucht aber immer massiv mehr Speicherplatz als die Speicherung von reinem Text. Du hast nun noch zusätzlich eine Texterkennung durchlaufen lassen, so dass diese »hinter« die Grafik noch einen reinen Text gelegt hat, so dass du das Dokument durchsuchen und einzelne Textpassagen kopieren kannst. Dieses Verfahren braucht aber (dank doppelter Datenspeicherung) »noch« mehr als die ohnehin schon großen gescannten Grafiken.

Da du die Grafiken ohne Qualitätsverlust nicht klein bekommst (man kann ein Foto eben nicht beliebig verkleinern, ohne an der Qualität zu schrauben), sind die meisten hier gegebenen Tipps nutzlos.


Ursache

Die Ursache für dein Problem liegt in der Art der Texterkennung. Hier gibt es grob gesagt, zwei Verfahren.

Möglichkeit eins (das günstige) durchsucht das gescannte Bild nach Buchstaben. Findet es welche, kann es diese entweder als »reinen Text« in eine Text-Datei speichern, oder es kann die gefundenen Buchstaben »hinter« die gescannte Grafik legen, so dass das PDF durchsuchbar wird und du den Text bei Bedarf auch rauskopieren kannst.

Dieses Verfahren geht mittlerweile recht gut und ist günstig in mehreren Programmen zu haben. Der Nachteil davon ist, dass diese Art der Texterkennung »dumm« ist. Sie weiß nicht, wann ein Text eigentlich eine Liste ist, ob der Text in einem Rahmen steht, in einer Spalte, als Bildunterschrift, in einer Tabelle o.ä. Sie erkennt nicht die Schriftart, die Farbe oder die Größe. Wenn du von so einer PDF-Datei die gescannte Grafik löschen würdest, dann wäre der dahinter sichtbare Text sehr hässlich. Die Buchstabenabstände stimmen nicht, einige Wörter scheinen zusammenzukleben, eine Tabelle wäre (durch die fehlende Grafik der Rahmenlinien) nicht mehr erkennbar, Schriftart, und Farbe wären alle gleich (schwarz). Das möchte niemand sehen. Ist aber das gescannte Bild im Vordergrund, fällt diese »Schlamperei« nicht weiter auf.

Möglichkeit zwei der Texterkennung, ist teurer und Aufwendiger, da nicht nur der Text als solches, sondern auch das ganze Layout-Brimborium mit erkannt wird. Tabellen werden also zu echten Tabellen, Listen zu richtigen Listen. Es werden Textboxen, Bildunterschriften, Spalten und Überschriften als soche erkannt. Bei so einem PDF könntest du die Grafik dann komplett löschen und es würde trotzdem noch halbwegs gut aussehen. Halbwegs gut deshalb, da diese Art der Erkennung nicht ganz perfekt ist. So können Schriftarten nicht 100%ig erkannt werden (und selbst wenn, hättest du die Schrift dann noch lange nicht auf deinem Rechner), Text, der über Bilder geschrieben wurde (vergleiche Frauenzeitschriften oder Kochbücher) kann nicht 100% genau erkannt werden.
Das Verfahren hat also einige Nachteile und die so erkannten Inhalte müssen fast immer etwas Nachbearbeitet werden.


Lösung
Ob es eine wirkliche Lösung für dein Problem gibt, hängt vom Aufwand ab, den du bereit bist zu betreiben, aber ich skizziere hier mal die Ansätze.

Neuerstellung
Du könntest (wie hier schon angemerkt wurde) das komplette Dokument in Pages abtippen, die paar Bilder einscannen und das ganze dann als gemischtes PDF erstellen (Text + wenige Bilder)

Aufwendiges OCR
Anstatt das bisherige OCR-Programm zu verwednen, könntest du eines einsetzen, welches das ganze Layout erkennt und dann als gemischtes PDF speichert. Für den Mac gibt es hier (meines Wissens) nur ReadIris Pro (ca. 130 Euro), allerdings sind die Rezensionen dazu eher gemischt. Für Windows gibt’s das meist gut bewertete OmniPage (100 – 200 Euro, je nach Version).

Diese können einen Scan als Word-Dokument mit fast originalgetreuem Layout speichern. Hier kannst du dann noch einzelne Fehler korrigieren und das ganze als »kleines« PDF exportieren. Du kannst natürlich auch gleich ein PDF erstellen lassen, dann wird’s mit Korrekturen aber schwieriger.
Für gute Ergebnisse (vor allem bei komplizierten Layouts) ist meist eine Nachbearbeitung nötig.

Anfrage beim »Hersteller«
Da die meisten Handbücher oder Dokumente heute sowieso am Rechner erstellt werden, wäre eigentlich die eleganteste Lösung, wenn du gar nichts scannen und via OCR umwandeln müsstest, sondern einfach beim Erzeuger der gedruckten Version nach einem PDF fragst. Das enthält dann den reinen Text und ein paar Bilder und dürfte somit kleiner sein. Viele Hersteller von Produkten bieten iher Handbücher auch als PDF zum Download an.


Dazwischen gibt es leider nichts. Du bekommt mit den einfachen OCR-Programmen kein kleines PDF, egal welche Tools du darüberlaufen lässt. Ebenso verlangen die besseren OCR-Programme meist eine Nachbearbeitung/Korrektur für ein sauberes Ergebnis.

Wenn das alles zu teuer oder aufwendig ist, bleiben Dienste wie DropBox oder ein FTP-Server, auf dem du deine Daten zum Download zu Verfügung stellst, die bequemste Möglichkeit.

Sorry für den langen Post, ich hoffe dass es nicht zu einschläfernd/verwirrend war.
0
jamaikus24.11.1108:06
Guten Morgen allerseits,

vielleicht hilft der folgende Tipp weiter?

0
Hot Mac
Hot Mac24.11.1113:17
Bastelarbeiten am Quartz-Filter sind nur etwas für Geduldige.

Ich hab gerade mit Acrobat Pro ein Magazin (Text und hochauflösende Bilder) von 65 MB auf gut ein Drittel der Größe eingedampft.
Die Qualität der Bilder leidet darunter natürlich.

Wissen wir schon, was mit dem PDF geschehen soll?
Muß die Datei vom Empfänger weiterbearbeitet werden?

Wenn die Datei lediglich zur Lektüre bereitgestellt werden soll, dann kann man die Qualität verringern bis die Schwarte kracht.
Sollte es vonnöten sein, die Datei in bester Qualität zu erhalten, dann ist der Transport via E-Mail eh nicht die beste Wahl. Alternativen wurden ja schon genannt.




0
Hot Mac
Hot Mac24.11.1113:31
Digitalo

Wenn ich mich recht erinnere, dann verwendest Du doch DEVONthink Pro Office ...

Stell die Datei doch einfach via WebSharing in – bester Qualität – zur Verfügung!
Dem Empfänger mußt Du dann nur noch das Passwort, wenn erforderlich, mailen.

Keine Kompromisse.
Easy peasy
0
MoreliaV
MoreliaV24.11.1113:40
Hast Du Acrobat ? Wenn ja, das eingescannte Bild im Druckdialog als postscript speichern und dann im Distiller von Acrobat in ein pdf wandeln, das reduziert die Dateigrösse je nach Einstellung auch recht deutlich
„95% aller Computerprobleme befinden sich zwischen Stuhl und Tastatur.“
0
Digitalo
Digitalo24.11.1115:16
Hot Mac
...dann ist der Transport via E-Mail eh nicht die beste Wahl. Alternativen wurden ja schon genannt.

Dass die Emaillösung nicht erste Wahl ist sehe ich unterdessen auch und werde die hier genannten Alternativen ansehen. Vorerst brannte ich das Material in einem zweiten Fall auf CDs, die ich dann per Post verschickte. Acrobat Pro habe ich nicht. Die PDFs werden nur als Informationsmaterial versandt.

Stimmt, ich habe DeThPro, konnte mich aber nie wirklich damit anfreunden. Dementsprechend liegt es seit einiger Zeit brach.
Schade, ich weiss, denn das Programm ist gut und kann viel, aber irgendwie ist es für mich wie gegen den Strich gebürstet. Schon eigenartig, dass man sich mit gewissen Apps einfach nicht anfreunden kann, obwohl man sieht, dass sie gut sind.
jamaikus
Guten Morgen allerseits,
vielleicht hilft der folgende Tipp weiter?

Zitat aus dem Link: "Nun kommt es aber manchmal (je nach Inhalt des PDFs) zu ein Problem: Das entstandene PDF ist sehr stark komprimiert und die Qualität von Pixel-Basierten Bildern (Scans etc.) ist leider sehr schlecht. Insbesondere wenn es sich bei den Bildern um Scans mit Text handelt."
So sah die Sache bei mir aus: siehe Beitrag 24.11.11 00:24
Krypton
Sorry für den langen Post, ich hoffe dass es nicht zu einschläfernd/verwirrend war.
Nicht 'sorry', sondern danke für den ausführlichen Post.

Es gibt Leute, die wissen über ein Thema gut Bescheid und können die Sache gut erklären und andere, die können es nicht. Du scheinst zu ersteren zu gehören.

Komme gerne später nochmals auf ihn zurück... im Moment wird die Zeit knapp.
0
Digitalo
Digitalo24.11.1115:20
MoreliaV
Hast Du Acrobat ?
Leider nicht.

0
Digitalo
Digitalo01.12.1122:47

Krypton

Ich hatte inzwischen Zeit, Deine Erklärungen genauer durchzulesen und bleibe bei meinem Post vom 24.11.11 15:16 an Dich.
Habe einiges dazugelernt.

Eigentlich sind Deine Ausführungen schon nahe an einem Journalbeitrag.
Willst Du nicht eine schreiben?
Wäre sicher für einige in diesem Forum von Interesse, meinst Du nicht?
0
snowman-x06.05.1223:48
hallo

ich kram jetzt mal dieses alte thread raus weil ich grad ein ähnliches problem habe:

ich möchte mich zur zeit bei diversen unternehmen für ein praktikum bewerben und mein problem ist das meine bewerbungsdateien ganze 55mb!!!!! groß sind!

bestehend aus:

anschreiben (64kb)
lebenslauf (1,6mb wahrscheinlich wegen dem bild)
arbeitszeugnis (1,3mb)
abiturzeugnis (53mb bestehend aus drei eingescannten bildern)

warum um gottes willen ist denn das so groß? das ist eine 300dpi quali sollte das nicht kleiner sein wenn ich das als pdf speicher?!

max 4mb sind erlaubt!

wie schaffe ich es das zu verkleinern?!

unter lion komm ich mit dem pdf komprimieren nicht klar. wenn ich bei filter auf "reduce file size" gehe kann man nix mehr lesen!

kann mir jemand helfen??
0
tangoloco07.05.1200:18
Scanne die Texte nicht als RGB ein, sondern als 300dpi Bitmap, schwarz-weiss, nur nuuler und einser sind im code.
Dann ist sehr viel kleiner.
„... sehr veraltete mentale Schaltkreise lassen Menschen überall geheimnisvolle Kräfte vermuten“
0
Krypton07.05.1203:44
snowman-x
warum um gottes willen ist denn das so groß? das ist eine 300dpi quali sollte das nicht kleiner sein wenn ich das als pdf speicher?!

Eine Din A4 Seite in 300 DPI hat (Taschenrechner rauskram) unkomprimiert ca. 25 MB pro Seite. 300 DPI gilt als »reprofähig« also als Druckfähig, so dass der Druck dem Original später sehr nahe kommt. Das ist für eine Online-Bewerbung nun wirklich mehr als überflüssig.

Damit man Texte und die Noten auf dem Bildschirm noch lesen kann, sind 100 DPI völlig ausreichend. Bei Zeugnissen brauchst du überdies nicht unbedingt einen farbigen Scan, oft reicht (aufgrund der Vorlage) auch ein Graustufen-Scan.

Der Empfehlung von tangoloco mit Bitmap/schwarz-weiß kann ich nicht folgen, das hat man früher für Laserdrucker oder alte Tintenkleckser verwendet. Am Bildschirm sieht s/w (nur Schwarz und weiß ohne graue Zwischenstufen) bescheiden aus.

Also entweder nochmal scannen in 100 DPI und Graustufen (bei grauen Vorlagen) oder die aktuell gescannten Bilder mit einer Bildbearbeitung (Pixelmator, Acorn, Photoshop oder sogar Vorschau.app) umwandeln und dann in das PDF/Pages-Dokument einbauen.

Auch das Bild im Lebenslauf kannst du massiv verkleinern, niemand braucht hier das 8 Megapixel original bei dem man jeden Pickel und jedes Nasenhaar sehen kann. Ein verkleinertes Bild mit max. 400 Pixeln höhe reicht hier völlig.

In Vorschau kannst du die Bilder folgendermaßen verkleinern:

1. Bild öffnen (auf das Vorschau-Icon im Dock ziehen)

2. Im Menü »Werkzeuge« die »Größenkorrektur« aufrufen

3. Dort kannst du jetzt entweder den DPI-Wert oder die Pixelgröße selbst anpassen. Für das Foto sollten wie erwähnt 400 Pixel in der Bildhöhe reichen. Bei den Zeugnissen kannst du entweder den DPI-Wert auf 100 ändern oder die Pixelgröße auf einen Wert von 1000 – 1200 Pixeln in der Höhe anpassen (bei A4 Zeugnissen) oder 800 – 900 Pixeln bei A5 Zeugnissen.

4. Ob das Bild jetzt noch brauchbar aussieht und lesbar ist, kannst du überprüfen, wenn du in Vorschau im Menü »Darstellung« den Punkt »Originalgröße« anwählst. Dann siehst du eine 1:1 Darstellung. Wenn das bei dir noch gut aussieht, passt es auch beim Empfänger.

5. Jetzt kannst du das Bild mit »Datei Sichern unter« neu speichern. Hier wählst du bei Format »JPEG« aus und wählst einen mittleren bis guten Wert (so bei 60 – 70%). Die neu gespeicherte Datei sollte dann unter 150 kb groß sein. Davon könntest du dann über 20 in die 4 MB packen.
0
ca
ca07.05.1209:06
@krypton:
danke für deine sehr informativen und hilfreichen erläuterungen.
mich hat's schlauer gemacht ....
„Gar nicht krank ist auch nicht gesund. (Karl Valentin)“
0
MacSnouch
MacSnouch07.05.1209:21
Servus!

Vielleicht hilft dir auch dieses Programm, ich liebe es wenn wir PDF's zu Kunden senden die Größer als 10 MB sind.

PDFSqueezer vom App Store

Liebe Gruesse

snouch
„[i]No matter how bad things may seem, just imagine how worse they could be, if you were running Windows [/i]
0
snowman-x07.05.1209:22
hey also VIELEN DANK für die erklärung! ich hätte gedacht 300dpi wäre ok..aber du hast ist recht viel! soll ja auh ordentlich aussehen

dann versuch ichs nochmal mit deinen vorschlägen!
0
LordLasch07.05.1209:33
MacSnouch
PDFSqueezer vom App Store

sieht super aus, aber benötigt Lion
*grrrrrrr*
0
snowman-x07.05.1210:24
@ macsnouch


pdf squeezer ist richtig gut!!!!!! vielen dank!!
0
Hühnchen
Hühnchen07.05.1210:46
Krypton
Der Empfehlung von tangoloco mit Bitmap/schwarz-weiß kann ich nicht folgen, das hat man früher für Laserdrucker oder alte Tintenkleckser verwendet. Am Bildschirm sieht s/w (nur Schwarz und weiß ohne graue Zwischenstufen) bescheiden aus.
reines S/W kann beim Scann wirklich recht übel aussehen. Aber es kann auch für die Dateigröße von einem hilfreich sein, das Weiß noch etwas hochzuziehen, so dass zb die Büttenpapier-Struktur der Vorlage verschwindet und der Text dann auf reinem weiß steht.
0
MacSnouch
MacSnouch07.05.1211:49
LordLasch
MacSnouch
PDFSqueezer vom App Store

sieht super aus, aber benötigt Lion
*grrrrrrr*

sorrryyyyyyy!!!!!
„[i]No matter how bad things may seem, just imagine how worse they could be, if you were running Windows [/i]
0
MacSnouch
MacSnouch07.05.1211:51
snowman-x
@ macsnouch


pdf squeezer ist richtig gut!!!!!! vielen dank!!

„[i]No matter how bad things may seem, just imagine how worse they could be, if you were running Windows [/i]
0
LordLasch07.05.1214:47
MacSnouch
LordLasch
MacSnouch
PDFSqueezer vom App Store

sieht super aus, aber benötigt Lion
*grrrrrrr*

sorrryyyyyyy!!!!!

hehe, kannste ja nix für
aber die Meldung vom App Store nervt schon gewaltig wenn sowas öfter passiert
0
Steve-GPC
Steve-GPC07.05.1219:31
Um möglichst kleine PDFs zum E-Mailversandt zu erreichen, speziell bei Bewerbungen, habe ich vor einiger Zeit folgende Anleitung gefunden(ist zwar für Windows, lässt sich aber auch unter Mac OSX umsetzen):

http://www.myself-ev.de/dokumente/Scannen_v_Dokumenten_Kurzform_20070716_MQ.pdf Kurzform(ca.2mb)

http://www.myself-ev.de/dokumente/Scannen_v_Dokumenten_20070716.pdf ausführlich(ca.6mb)


Kostet zwar etwas Zeit, liefert aber ein super Ergebniss!
„Wine is fine, but Whiskey is quicker! “
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.