Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Gescannte A4-Seite (PDF) mit 6 MB Speichervolumen!?

Gescannte A4-Seite (PDF) mit 6 MB Speichervolumen!?

Digitalo
Digitalo28.12.1015:54
Ein heruntergeladenes, 11-seitiges Handbuch kommt hingegen gerade mal mit 150 KB aus.

Ich versuchte mit meinem Scanner (HP Photosmart Premium) alle Einstellungen beim Speichern. Die gescannten Dateien bekomme ich nie auf ein vernünftiges Volumen herunter.

Über den Umweg via Bildschirmfoto des gescannten Dokumentes, dieses dann als PDF-Datei speichern klappt es.

Wie ist das bei euch mit der Grösse eingescannter Dokumente?

Danke schon mal für eure Rückmeldungen!
0

Kommentare

Smirnoff8728.12.1015:58
Welche Auflösung (dpi) hast du denn eingestellt?
0
thejerry70
thejerry7028.12.1016:04
Hi!

Also bei mir sind's je nach den vorgenommenen Einstellungen zwischen einige hundert KB und MB... Womit wird denn gescannt? Also welche Software wird genutzt? Wenn es die Software von Apple ist (Digitale Bilder), dann würde es vielleicht etwas nutzen an der Scanauflösung Änderungen vorzunehmen. Für eine reine Textseite oder einfache Schwarz-Weiß-Grafiken reichen ja niedrigere Auflösungen. Dann sollte die Dateigröße geringer ausfallen. Eventuell könnte es auch daran liegen, dass der Scanmodus auf Farbdokumente eingestellt ist...

Ach ja: Einfacher als der Umweg mit Bildschirmfoto könnte es auch sein, wenn das gescannte Dokument als Bilddatei gescannt wird und dann beim Drucken als PDF gedruckt wird (gibt ja die Option unten links) ... sind ein paar Klicks weniger.

Das ist jedenfalls was mir so auf die schnelle einfällt, vielleicht hilft es ja.

Gruß!
0
ChrisK
ChrisK28.12.1016:15
Digitalo
Ein heruntergeladenes, 11-seitiges Handbuch kommt hingegen gerade mal mit 150 KB aus.

... weil das ja auch aus richtigem Text besteht und direkt aus'm Satzprogramm exportiert wurde. Wenn du einfach was auf deinen Scanner klatscht und das direkt als PDF speicherst ist das einfach nur ein PDF mit einem riesigen Bild drin. Wenn du es auch so schön klein (und ordentlich) haben willst, musst du es entweder abtippen, oder dein Glück mit einer OCR Software versuchen.
„Wer anderen eine Bratwurst brät, hat ein Bratwurstbratgerät.“
0
Krypton28.12.1016:18
Die meisten PDF-Dokumente enthalten nur einfachen Text und wurden mit Word, Pages, InDesign oder Quark erstellt. Diese sind auch mit sehr vielen Seiten recht klein, da Text eben wenig Speicher braucht. Eingescannte Seiten liegen hingegen als Pixelgrafik vor und brauchen ein vielfaches des Speichers. Das ist ganz normal und meistens auch nicht weiter schlimm.

Wenn das Dokument jedoch sehr klein werden muss, kann man mit der Qualität des gescannten Bildes beliebig tief in den Keller fahren. Je nach Software kann man die Auflösung des Scans einstellen (100 dpi – 600 dpi beispielsweise, wobei 100 bei kleiner Schrift schon nicht mehr so schön sind). Zudem kann man die JPEG-Komprimierung des Bildes im PDF ändern. Hier lassen sich – wieder je nach verwendeter Software – verschiedene Qualitätsstufen einstellen, welche die Größe auch beeinflussen.

Soll es super klein und qualitativ trotzdem gut werden, hilft wohl nur eine OCR-Software, welche den Text erkennt und diesen in ein Word/Pages Dokument umwandelt. Dieses lässt sich dann wieder als kleines PDF speichern. Da hier oft noch eine Fehlerkorrektur notwendig ist und das Layout eventuell angepasst werden muss, dauert diese Methode auch am längsten.
0
Digitalo
Digitalo28.12.1019:13
@ Smirnoff87

Die lässt sich für den Scanvorgang nicht einstellen. Jedenfalls fand ich weder in den Menüs noch im Handbuch Angaben darüber. Mit welcher Auflösung der Scanner arbeitet weiss ich nicht. Eigenartig, dass ich darüber nichts finde ausser im Handbuch: 'Foto sw. fein: 200 x 200 dpi / sehr fein 300 x 300 dpi'.
Einstellungen lassen sich erst beim Speichern festlegen (s. Bild).

@ thejerry70

Benutze die Software, die mir dem Scanner geliefert wurde. Die Seite habe ich auch schon als Bilddatei gespeichert. Als Beispiel für die Ordner mit jeweils 5 Scans:
JPEG minimale Qualität 51 MB
JPEG maximal Qualität 51 MB
PNG 46 MB
Eigenartig, dass bei .jpeg die Qualität keine Auswirkung auf die Dateigrösse hat.

@ Chris
... weil das ja auch aus richtigem Text besteht und direkt aus'm Satzprogramm exportiert wurde.

@ Krypton
Eingescannte Seiten liegen hingegen als Pixelgrafik vor und brauchen ein vielfaches des Speichers.

Eure Beiträge fördern mein Verstehen der Sache.
Danke.

Die Dateien müssen nicht minimalst klein, sollen aber auch nicht unnötig aufgeblasen sein.
Ich werde da wohl noch etwas rum experimentieren müssen.

Danke für eure Beiträge.
0
Digitalo
Digitalo28.12.1019:17
Einstellungsmöglichkeiten beim Speichern:
0
Esäk
Esäk28.12.1019:46
Ja dann nimm halt eine Bildbearbeitungssoftware und komprimiere die JPGs.
Oder nimm PDFcompress...
„Die Todesstrafe gehört auch in Hessen abgeschafft!“
0
RAMses3005
RAMses300528.12.1020:24
PDFs mit Bildern stark zu komprimieren führt zu unleserlichen Dokumenten und Pixelbildern. Entweder die PDFs richtig erzeugen aus Textprogrammen oder scannen und dann über eine OCR-Software die Bilder in richtige Texte umwandeln. Danach kann wieder ein PDF erstellt werden, das klein und sehr gut lesbar wird. Alles andere mit starker Komprimierung ist Muckenfug ... so arbeiten nur Windows-Office-Anwender.
0
mac-g4
mac-g428.12.1020:47
@RAMses3005
RAMses3005
Alles andere mit starker Komprimierung ist Muckenfug ... so arbeiten nur Windows-Office-Anwender.

RICHTIG

da geb ich die volle 110% recht

und die erklährung ist auch richtig
„http://www.csmusiksysteme.net“
0
Digitalo
Digitalo28.12.1021:02
Mit 'Digitale Bilder' lassen sich die dpi einstellen. Die Sache hat für mich jedoch einen entscheidenden Nachteil: PDFs lassen sich in DevonThink Pro nicht nach ihrem Inhalt durchsuchen - was ja nicht erstaunlich ist, es geht ja um Bilder.

Ich bleibe vorerst bei der mitgelieferten Software. Mit der Einstellung PDF - Bild über Text bleibt das Layout erhalten und der Text durchsuchbar.
0
Esäk
Esäk28.12.1021:33
RAMses3005
...so arbeiten nur Windows-Office-Anwender.
Sowas behaupten in dieser Absolutheit nur Leute, deren Ahnung umgekehrt proortional mit der Selbstsicherheit ist, mit der sie ihre Meinung vortragen…


Und, mac-g4, schöhn, dass Du die "erklährung" für 110% richtig ansiehst.

„Die Todesstrafe gehört auch in Hessen abgeschafft!“
0
RAMses3005
RAMses300528.12.1021:45
Esäk
Ja dann nimm halt eine Bildbearbeitungssoftware und komprimiere die JPGs.
Oder nimm PDFcompress...

Mangelnde Erfahrung kannst Du mir nicht vorwerfen. Ich hatte damit 6 Jahre zu tun. Ich mußte oft mit Windows-Office-Anwendern als Kunde umgehen, die meinten, dass
- 72 dpi-Bilder besser werden, wenn man sie in Photoshop öffnet und mit höherer dpi-Zahl wider abspeichert
- gescannte Text- und Bildseiten-PDFs durch Kompression ebenso klein werden wie mit Satzprogrammen gesetzte. Ist leider nicht der Fall, wenn man einen Hauch Anspruch auf lesbare Qualität legt

JPG-Dateien sind schon hoch komprimiert, und zwar stark verlustbehaftet. Wenn Du diese nochmals komprimierst, wird entweder die Qualität sehr schlecht (bei weiterer JPEG-Komprimierung) oder die Dateigröße wird halt nicht kleiner (bei verlustfreier ZIP-Komprimierung).
0
HR28.12.1022:40
Also ich scanne alles mit Adobe Acrobat Pro und einem Canon CanoScan 8800F Scanner.
Ich scanne alles in Farbe und die Dokumente werden sehr klein. Das hängt natürlich von den Dokumenten ab. Ein SW Dokument mit 4 Seiten hat z.B. eine Größe von 74KB. Dazu wurde der Text mit OCR gescannt und ist über Spotlight zu durchsuchen.
Beim Ausdruck des Dokuments erkennt man kaum ein Unterschied vom Original. Ich habe mit Scanns in SW, Graustufen oder Farbe getestet und bin dazu übergegangen alles in Farbe zu scannen. Aus mir unerklärlichen Gründen macht das Adobe ganz gut
0
Alto
Alto29.12.1001:35
HR
Wecke OCR-Software benutzt du?
0
ein.Leguan
ein.Leguan29.12.1001:47
Da es sich um eine relativ geringe Anzahl von einzuscannenden Seiten handelt,
wäre Dir mit PDF OCR X eine kostenfreie Möglichkeit gegeben den Text zu extrahieren, um anschließend aus der Textdatei eine brauchbare .pdf-Datei zu erzeugen.

PDF OCR X lässt Dich in der kostenfreien Version jeweils nur eine Seite scannen. Also muss das 11-seitige Dokument in Einzelseiten gespeichert und in PDF OCR X importiert werden.
0
Digitalo
Digitalo29.12.1002:00
@ ein.Leguan
Beim Speichern wird der Textteil einer Seite noch von einer Software (habe ihren Namen nicht gerade präsent) 'durchgekämmt. Danach sind die Textteile für Spotlight indexiert.
Vielleicht macht sie das, was Du extrahieren nennst?
0
ein.Leguan
ein.Leguan29.12.1002:12
Digitalo
Wie ich Dich gerade verstanden habe, ist Deine Frage, was eine OCR-Software leistet?!

OCR-Software macht den Text aus einer Datei nicht nur durchsuch- sondern bearbeitbar.
Du bekommst demnach eine reine Textdatei, die Du daraufhin bearbeiten, formatieren und erneut in eine .pdf-Datei speichern kannst - und das eben mit deutlich kleinerer Dateigröße als beim speichern als durchsuchbarer Text auf Bildhintergrund (wie es scheinbar bis jetzt der Fall ist).

0
Digitalo
Digitalo29.12.1002:43
ein.Leguan
Danke erstmals.
Stelle ich beim Speichern 'Text über Bild' ein, scheint eine OCR Software über das eingescannte Dokument zu laufen. Wie gut das Resultat bei einer reinen Textdatei ist, habe ich noch nicht getestet. Ich erinnere mich an Versuche vor Jahren... ... aber da wird sich in der Zwischenzeit natürlich viel getan haben.

Das mit dem Scanner mitgelieferte OCR-Programm kommt jedenfalls nicht zurecht, wenn es sich beispielsweise um eine Rechnung mit angehängtem Einzahlungsschein handelt. Bild (Einzahlungsschein) und Text kann sie dann offenbar nicht mehr auseinanderhalten. Da wird einiges kryptisch.

Was bei 'Bild über Text' über den Scan läuft ist ein Programm, welches die PDF-Datei für den Mac lesbar macht.
Da ich viele Dokumente als PDFs archiviere, leistet mir die gute Dienste.

Wie der Stand bei aktuellen OCR Programmen ist, werde ich mir ansehen. PDF OCR X wird auf jeden Fall mit dabei sein. Falls Du weitere diesbezüglich Erfahrungen hast, bin ich um Hinweise natürlich froh.

Herzliche Grüsse

Digitalo
0
ein.Leguan
ein.Leguan29.12.1002:50
Das empfohlene PDF OCR X halte ich nur für den sporadischen Einsatz vor, weil bisweilen kein Bedarf für eine unbeschränkte OCR-Software besteht.

Nach wie vor bin ich mir nicht in Klaren über Deine Ziele:
möchtest Du...
  • aus einem Scan eine bearbeitbare Textdatei machen oder
  • Scans nur durchsuchbar abspeichern?
0
cuco29.12.1004:04
RAMses3005
... so arbeiten nur Windows-Office-Anwender.

oh ja auf Windows anwender rumhacken! das ist mal wieder typisch. was soll das? ich hab das gefühl, dass der horizont der meisten hier im forum sehr beschrenkt ist. man muss nur wissen mit welcher software man was macht und wie handeln muss. aber was solls. immer alles gleich auf das betriebsystem schieben ist schwach. und naja wir befinden uns hir in OS X, also wenn man objektiv bleibt, wurde da die sche..e gebaut. basta.
die jungs hier wissen dir schon zu helfen.
ich hab die erfahrung gemacht, dass jede software andere ergebnisse produziert, und man entsprechend dem ziel auswählen muss. aber warum sind die paar MB überhaupt ein problem? klar es geht kleiner, aber nichts ist immo so günstig wie speicher. auch wenn er für den mac etwas teuerer sein mag.
0
Digitalo
Digitalo29.12.1005:52
Ich habe neu viele PDF's einzuscannen und abzulegen. Da ich mich über die Grösse der PDF-Dateien wunderte, fragte ich nach euren Erfahrungen. Durch eure Beiträge - dies war meine Hoffnung - ist mir vieles klar geworden. Das experimentieren mit dem Einstellen der Auflösung im Programm 'Digitale Bilder' (bei der HP- Software geht das nicht) beisplielsweise hat mir den Zusammenhang mit der Grösse der Dateien deutlich gemacht.

Die Dateien müssen nicht möglichst klein sein, doch ich wollte die Zusammenhänge verstehen.
ein.Leguan
Nach wie vor bin ich mir nicht in Klaren über Deine Ziele:
Sorry!
Zum ursprünglichen Ziel ist durch Deinen Beitrag ein zweites hinzugekommen.
ein.Leguan
... möchtest Du Scans nur durchsuchbar abspeichern?
Darum geht es mir in erster Linie.
ein.Leguan
...oder möchtest Du aus einem Scan eine bearbeitbare Textdatei machen'
Ich habe früher OCR-Software ausprobiert. Die Resultate waren teilweise katastrophal. Irgendwie kippte ich danach diese Softwarekategorie in die Schublade 'kannst Du vergessen'.

Dein Beitrag 29.12.10 01:47 brachte mich zum Gedanken (auf den ich selber hätte kommen können, aber eben nicht kam), dass seither einige Jahre vergangen sind und die Entwicklung sicher nicht stehen geblieben ist.
Bei gewissen PDFs, beispielsweise aus dem Projekt 'Gutenberg', oder gewissen Scans, eigene Gedanken reinschreiben zu können (was bei 'Skim' nur rudimentär geht), wäre für mich eine verlockende Möglichkeit.

Aus einem Ziel sind also unterdessen zwei Anliegen geworden.


0
RAMses3005
RAMses300529.12.1008:11
Digitalo
Ich verstehe es so, dass Du die Zettelwirtschaft wie Belege, Rechnungen usw. aus dem privaten Bereich digital ablegen möchtest und zwar so, dass Du später wieder einfach danach suchen kannst, beispielsweise mit Spotlight.

Wenn Du gescannte Seiten nicht per OCR in Text umwandeln kannst (vielleicht weil die Schrift Handschrift ist oder eine spezielle Schriftart verwendet wurde), dann würde ich anstelle dem JPEG-Format mal noch das PNG-Format ausprobieren. Das ist zwar etwas größer bzw. kann in Vorschau nicht stufenlos kleiner (und damit schlechter) gemacht werden, aber es bietet einen guten und effektiven Komprimierungsalgorythmus (macht es extrem klein bei immer noch guter Lesbarkeit der Seite). PNG-Dateien sind immer noch Bilddateien wie auch JPEG und damit nicht suchbar, außer nach dem Dateinamen.

Wenn Du PDF-Dateien behalten möchtest, dann würde ich Dir Acrobat Pro empfehlen. Dort kann man bestehende PDF verkleinern und auch in gewissem Umfang OCR durchführen und gleich im PDF abspeichern. Außerdem lassen sich Notizen und Lesezeichen hinzufügen. Diese PDFs sind dann durchsuchbar.
0
Krypton29.12.1014:00
Digitalo

Benutze die Software, die mir dem Scanner geliefert wurde. Die Seite habe ich auch schon als Bilddatei gespeichert. Als Beispiel für die Ordner mit jeweils 5 Scans:
JPEG minimale Qualität 51 MB
JPEG maximal Qualität 51 MB
PNG 46 MB
Eigenartig, dass bei .jpeg die Qualität keine Auswirkung auf die Dateigrösse hat.

Diese Ergebnisse sind tatsächlich sehr eigenartig. Nicht nur, dass die JPEG-Variante nicht mit der Qualitätseinstellung kleiner wird, sondern dass sie überhaupt größer als die PNG-Version ist. Da scheint was nicht zu stimmen. Normalerweise sind JPEGs selbst in der höchsten Qualitätsstufe kleiner als PNGs.

Als Notbehelf kannst Du mal probieren, ein von der HP-Software erzeugtes PDF mit Vorschau zu öffnen und dort unter neuen Namen zu speichern (Ablage > Sichern unter…). Im erscheinenden Fenster wählst Du nun im unteren Teil bei „Format: PDF“ und bei „Quartz-Filter: Reduce File Size“ aus. Das neue PDF müsste deutlich kleiner sein (bei etwas schlechterer Qualität). Die Quartz-Filter Option – also die stärke der Komprimierung lässt sich über einen Umweg (Programme > Dienstprogramme > ColorSync Dienstprogramm: Toolbar > Filter) auch noch individuell anpassen.

Ansonsten scheint die Scan-Software ja schon ein einfaches OCR-Programm eingebaut zu haben. Bei den Speicheroptionen „Bild über Text“ und „Text über Bild“ wird jeweils der Text erkannt und mitgespeichert. Bei „Bild über Text“ kannst Du den Text nicht sehen, da er eben hinter dem Bild liegt, bei „Text über Bild“ solltest Du den Text auch sehen bzw. auswählen können. Spotlight und DevonThink erkennt jeweils beide Versionen und kann das PDF entsprechend auch durchsuchen. DevonThink Pro Office macht genau dasselbe, es kann bei gescannten Bildern/PDFs auch mit einer einfachen OCR-Software den Text erkennen und das PDF so durchsuchbar machen.

Für die Archivierung würde ich daher auf jeden Fall die „Bild über Text“ Variante nehmen und bei zu großen PDFs diese via Vorschau oder anderen PDF-Tools klein-schrumpfen.
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.