Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Wie kann man in PDFs Wörter zählen lassen?

Wie kann man in PDFs Wörter zählen lassen?

Hellokittyhater25.08.0923:07
Hallo Forum,

meine Diplomarbeit umfasst eine Auswertung, bei der ich die Anzahl der Wörter einer Textpassage einer PDF-Datei bestimmen muss. Deshalb wollte ich fragen ob es hierzu für den Mac eine dementsprechende Software gibt? Für Windows scheint es was zu geben, aber für den Mac habe ich diesbezüglich noch nichts gefunden. Mir ist durchaus bewusst dass ich den Text einer PDF in Word oder Pages kopieren könnte und die dortige Wortzählfunktion nutzen könnte, allerdings werden beim Kopieren die Umbrüche insbesondere in Folge von Trennungen als Leerzeichen interpretiert, was aus einem Wort manchmal zwei Wörter macht. Das Nachformatieren wäre bei einer PDF ja kein Problem. Aber meine Auswertung umfasst 300 PDF-Dateien. Da würde ich sonst ewig dasitzen.

Wäre schön wenn ihr mir helfen könntet.

Liebe Grüße

Hellokittyhater.
0

Kommentare

marcphotography
marcphotography25.08.0923:25
Word Counter sollte das können...



oder über das Terminal...

To count the amount of words in a PDF file on Mac OS X, just open the Terminal.app and type: ps2ascii myfile.pdf | wc -w, where myfile.pdf is the name of the PDF, of which you want to count the words. Of course you can also use all the other options of the wc command (such as counting characters, etc.).

„Age is an issue of mind over matter. If you don't mind, it doesn't matter. - Mark Twain“
0
DaBa777
DaBa77725.08.0923:35
Hallo Hellokittyhater,

ich markiere den Text (nutze CopyPaste Pro) und öffne den Clip in Bean (ist Bestandteil von CopyPaste Pro) dort wird unten die Anzahl der Wörter /Zeichen etc. angezeigt.
Vielleicht hilft Dir das weiter.

Gruß DaBa


Edit:
Ups… da war jemand schneller … danke für den Tipp … die Terminal-Variante ist mir sehr sympathisch.
„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
Hellokittyhater25.08.0923:41
Word Counter habe ich gerade mal getestet, aber das ist noch ungenauer, als wenn ich das in Pages reinkopieren würde. Und über Terminal hauts nicht hin weil ich nicht die komplette PDF auslesen lassen muss. Denkt man eigentlich das ist was ewig simples aber kriegt man gar nicht so einfach hin.
0
Hellokittyhater25.08.0923:53
daba777
Was ist der unterschied zwischen normalem kopieren und dem kopieren mit Copy Paste Pro? Weil das Problem beim kopieren sind ja die Zeilenumbrüche, die plötzlich aus einem Wort zwei Worte machen, wenn man sie nicht nachträglich behandeln will. Sonst könnte ich das ganz normal auch mit dem normalen Kopieren-Befehl und Pages machen.

So sieht z.B. ein unformatierter Text aus, der mir bei meiner Auswertung einfach Probleme machen würde:
Auch im Geschäftsjahr 2008 hat der Aufsichtsrat die Führung des Unternehmens konti nuierlich
überwacht und seine Beratungsfunktion bei wesentlichen Entscheidungen des Vorstands
erfüllt. Schwerpunkte im Berichtsjahr waren neben strategischen Themen stellungen
die laufende Geschäftsentwicklung – auch unter Berücksichtigung des aktuellen konjunkturellen
Umfeldes – sowie die Neuorganisation der Vorstandsressorts.
Die umfassende, regelmäßige und zeitnahe Information des Aufsichtsrats durch den Vorstand
war stets gewährleistet. Der Vorstand unterrichtete den Aufsichtsrat in schriftlicher
und mündlicher Form über die Geschäftsentwicklung, die Risikolage und das Risikomanagement,
über alle relevanten Aspekte der Unternehmensplanung sowie über zustimmungspflichtige
Geschäfte. Außerhalb der Sitzungen informierte der Vorstand die Mitglieder des
Aufsichtsrats regelmäßig schriftlich über wichtige Ereignisse. Der Vorstandsvorsitzende
hielt darüber hinaus steten Kontakt zu dem Vorsitzenden des Aufsichtsrats und unterrichtete
ihn umfassend und zügig über alle wesentlichen Geschäftsvorfälle und anstehenden
Entscheidungen. Sämtliche erforderlichen Beschlüsse nach Gesetz und Satzung fasste der
Aufsichtsrat auf Grundlage der Berichte sowie Beschlussvorlagen des Vorstands.

Die Wörter sind oft zerstückelt und der Zähler zeigt deshalb mehr Wörter an. Das ist das Problem das ich habe, wie z.B. bei kontinuierlich rechts oben.
0
DaBa777
DaBa77726.08.0900:06
Okay jetzt verstehe ich... Warscheinlich also auch keine Lösung... CopyPaste benutze ich schon "ewig" deswegen. Mit welchem Programm ist den der Text erstellt? Oder warum gibt es nur eine PDF-Version davon?
„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
Hellokittyhater26.08.0900:08
DaBa777
Okay jetzt verstehe ich... Warscheinlich also auch keine Lösung... CopyPaste benutze ich schon "ewig" deswegen. Mit welchem Programm ist den der Text erstellt? Oder warum gibt es nur eine PDF-Version davon?

Naja das sind Geschäftsberichte, die auf der jeweiligen Firmenhomepage als PDF-Versionen angeboten werden. Ich habe also keinen Zugfriff auf das ursprüngliche Dokumentenformat.

Zur Not muss ich halt in der Diplomarbeit angeben, dass die Zahlen einer Messtoleranz unterliegen, auch wenn das bißchen unschön ist. So wichtig sind 100 % richtige Werte nicht es geht eher um eine Tendenz. Schön wäre es aber dennoch, wenn ich die Wörteranzahl möglichst genau bestimmen kann.
0
DaBa777
DaBa77726.08.0900:16
Habe es gerade mal ausprobiert … ist vielleicht doch was …

Hier mal das Ausgangs-PDF (mit Umbruch bei ausreichend) und oben sieht man den Eingefügten Text in Bean (ohne Umbruch).
CopyPaste kopiert auf Wunsch mit der Ursprungsformatierung.

„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
DaBa777
DaBa77726.08.0900:23
Interessant ist, das es nicht mit Vorschau geht (da sind alle Texttrennungen auch in Bean vorhanden). Wenn man das PDF in Adobe Reader kopiert funktioniert es.
„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
Hellokittyhater26.08.0900:27
DaBa777
Interessant ist das es nicht mit Vorschau geht (da sind alle Texttrennungen auch in Bean vorhanden). wenn man das PDF in Adobe Reader kopiert funktioniert es.

Ja einen ähnlichen Effekt habe ich auch mit dem Adobe Reader festgestellt schon. Funktioniert trotzdem nicht immer richtig mit dem Adobe Reader, zumal manche Geschäftsberichte leider kopiergeschützt sind und man deshalb manchmal nur in Vorschau kopieren kann, weil die Funktion beim Adobe Reader leider geblockt ist. Doof das...

Ich hätte ja Copy Paste Pro mal runtergeladen. Aber der Server des Entwicklers scheint down zu sein.

So wie es ausschaut werde ich wohl mit einer Messtoleranz leben müssen. Aber dadurch dass alle Geschäftsberichte normal im gleichen Umfang davon betroffen sein müssten, dürfte es nicht so schlimm sein.
0
breaker
breaker26.08.0900:28
In Acrobat das Markup-Textwerkzeug (glaube das heißt so, nicht das normale Auswahlwerkzeug wählen), dann hast du auch keine Umbrüche etc drin.
0
Hellokittyhater26.08.0900:33
breaker
In Acrobat das Markup-Textwerkzeug (glaube das heißt so, nicht das normale Auswahlwerkzeug wählen), dann hast du auch keine Umbrüche etc drin.

Meinst du das wo man wie bei einem Screenshot einen Bereich auswählen kann? Das habe ich gerade probiert. Da wird dann wie bei einem Screenshot lediglich das Fenster kopiert, deswegen kann man da dann leider keine Wörteranzahl bestimmen.
0
breaker
breaker26.08.0900:38
Hab eben mal nachgeschaut. Es heißt Touch Up Textwerkzeug. Findest du unter erweiterte Bearbeitung im Menü Werkzeuge.
0
DaBa777
DaBa77726.08.0900:41
Versuch mal Ghost Reader

Damit gehen bei mir auch kopiergeschützte PDF… ohne Trennungen!
„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
Hellokittyhater26.08.0900:59
DaBa777
Versuch mal Ghost Reader

Damit gehen bei mir auch kopiergeschützte PDF… ohne Trennungen!

Ja das Programm macht die Textumbrüche vernünftig, hat aber leide keine Suchfunktion, die bei über 130 Seiten langen Geschäftsberichte leider nötig ist.
breaker
Hab eben mal nachgeschaut. Es heißt Touch Up Textwerkzeug. Findest du unter erweiterte Bearbeitung im Menü Werkzeuge.

Bei mir gibt es im Adobe-Reader dieses Werkzeug nicht. Nutzt du vielleicht die Windows-Version?


Wirklich danke für eure Hilfe und Geduld und das Mitten in der Nacht.
0
DaBa777
DaBa77726.08.0901:05
Ist zwar etwas umständlich, aber man kann es aus dem Ghost Reader-Fenster erneut kopieren und dann … z. B. in Pages einsetzten und zählen lassen.
Sollte ja nur eine Lösung für die Adobe Reader resistenten PDF sein …
Wenn es sein muss …

Viel Spaß und Gute Nacht

PS: Das besagte Werkzeug (Touch Up) gibt es nur in Acrobat!
„Allen ist das Denken erlaubt - vielen bleibt es erspart. (Curt Goetz)“
0
haemm0r26.08.0901:34
den Schutz kann man evntl. mit PDFLab entfernen
„MacBook Pro late 2007, 15", 2,4GHz, 4GB DDR2 RAM, 256MB Nvidia 8600M GT, 120GB OCZ Vertex 2 / 160GB HD (kein Superdrive mehr nach 3 Laufwerksschäden )“
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.