Forum>Software>Software um ähnliche Word-Dokumente zu finden

Software um ähnliche Word-Dokumente zu finden

marm25.01.2120:58
Vielleicht habt ihr einen Tipp für mich.

Jemand schickt mir ständig Word-Dokumente per Mail, von denen manche Überarbeitungen früherer Dokumente sind. Die Dateinamen sind oft völlig verändert.
Ich wiederum nehme oft diese Dokumente und überarbeite diese wieder. Manchmal stelle ich fest, dass ich den gleichen Text schon mehrfach überarbeitet habe, was natürlich unnötig Zeit kostet.

Ich würde nun gerne alle Dokumente in ein Verzeichnis packen und Cluster von ähnlichen Dokumenten haben.
Nützlich wäre da eine Software, die nicht exakt gleiche Dokumente findet, sondern ähnliche Dokumente, vielleicht sogar nur ähnelnde Textbausteine.

Ideen? Danke!

PS Ich kann gerne alles nach rtf, txt etc. umwandeln. Mit Devonthink kein Problem.
0

Kommentare

Kapeike
Kapeike26.01.2107:36
ich würde das Problem anders angehen: Das ist alles eine Frage der Ordnung.

Zuerst: Hört auf euch Dateien zu schicken! Vereinbart einen gemeinsamen Speicherort, auf einem Server, in einer Cloud, was weiß ich wo, wo nur jeweils eine Datei eines Dokuments liegt. Dann vereinbart ihr eine ordentliche Namensstruktur für die Dateien. 20210126-Dateiname-V01.docx zum Beispiel. Versetzt die Dokumente in den Änderungsmodus, denn dafür ist er da. Damit kann jeder sehen, was der andere geändert hat. Jeder, der was ändert, speichert neu und nennt das Dokument 20210126-Dateiname-V02.docx und schiebt das V01 = Version 01 in einen Archivordner.

Ich verbiete meinen Mitarbeitern geradezu, Dateien zu schicken. Sie sollen in einer E-Mail den Ablageort auf dem Server bekanntgeben, aber niemals die Datei schicken. Täten sie dies, existiert die geschickte Datei 20 mal und nach schon nach kurzer Zeit gibt es Varianten der Ursprungsdatei.
+12
marm26.01.2109:13
Du hast völlig recht. Das versuche ich schon seit einem Jahr... Mir hilft das nur gerade nicht.

Ich arbeite mit Ingenieuren, Datenbank-Experten und Wirtschaftsingenieuren, die mir Word-Dokumente mit wechselnden Datennamen in Mails mit nichtssagendem Betreff senden. Ständig werde ich bei Mails in Kopie gesetzt, so dass ich jede Mail durchforsten muss, ob es für mich relevant ist. Das mache ich bei jeder Mails mehrmals, weil ich mir bei nichtssagendem Betreff auch nicht merken kann, ob ich die Mail schon berarbeitet habe usw.
Daher tagge ich mittlerweile Mails mit MailSuite, lege Mails in Devonthink ab, sage regelmäßig "lass uns den Server nutzen, den ich eingerichtet habe", ... Man gelobt mir immerhin seit einer Weile schon Besserung.

Zu dem Problem, Cluster von ähnlichen Dokumenten zu erstellen, habe ich wissenschaftliche Literatur gefunden, eine Software jedoch nicht.
0
Wellenbrett26.01.2109:44
Du hast bereits ein geeignetes Programm in Verwendung: Devonthink! Das kann auch mit Word-Dokumenten umgehen; ich weiss nicht, ob in allen Editionen, aber in der Pro-Edition auf jeden Fall. In dem Tab "Siehe Auch und Einordnen" sind dann ähnliche Dokumente zu sehen. (Im Tab "Konkordanz">"Cloud" zeigt Devonthink ein Vernetzungsdiagramm für einen ausgewählten Begriff innerhalb des ausgewählten Dokuments an.Die häufigsten Begriffe werden dabei hervorgehoben, so kann man sie auch für Vergleiche zwischen Dokumenten heranziehen) Wenn Du eine eigene Devonthink-Datenbank nur für die Word-Dokumente anlegst, wird das natürlich übersichtlicher.
+1
MikeMuc26.01.2109:57
So alle den gleichen Mailserver nutzen, sollte man versuchen, dort das verschicken von Wordanhängen zu unterbinden. Dann hört der Spuck ganz schnell auf wenn solch Mails postwendend zurück können wegen „Verletzung der Policy“
0
marm26.01.2110:10
Wellenbrett
... zeigt Devonthink ein Vernetzungsdiagramm für einen ausgewählten Begriff innerhalb des ausgewählten Dokuments an.Die häufigsten Begriffe werden dabei hervorgehoben, so kann man sie auch für Vergleiche zwischen Dokumenten heranziehen) Wenn Du eine eigene Devonthink-Datenbank nur für die Word-Dokumente anlegst, wird das natürlich übersichtlicher.
Das sollte ich mal ausprobieren. Bislang nutze ich nur das Aufspüren von Duplikaten in DT (Pro) ausgiebig. Die Dokumente müssen ohnehin alle in ein Hauptverzeichnis von Devonthink. Von dort stelle ich sie in die Nextcloud.
MikeMuc
So alle den gleichen Mailserver nutzen, sollte man versuchen, dort das verschicken von Wordanhängen zu unterbinden.
Krankheit besiegt! Patient tot.
Was meine älteren Mitarbeiter/Kollegen schreiben, ist für das Projekt alles wichtig. Die benutzen Computer seit seit den Anfangstagen - nur leider noch wie in den Anfangstagen.
+1
Wellenbrett26.01.2110:19
In Devonthink könntest Du dann noch alle Word-Dokumente automatisiert in reine Textdokumente konvertieren lassen und mit den (kostenlosen) Apple Developer-Tool "FileMerge" zwei (vorab wiederum mit Devonthink ausgewählte) Textdokumente gezielt vergleichen. Da werden Unterschiede und Gemeinsamkeiten im Detail angezeigt.
0
ThorsProvoni
ThorsProvoni26.01.2110:26
Ich gebe Kapeike Recht, dass das ein organisatorisches Problem ist. Aber versuch mal, dass stringent außerhalb Deiner eigenen Organisation durchzusetzen...

@marm: Du hast die Lösung für Dein Problem bereits genannt: DEVONthink. Einfach die Word-Dateien nach DEVONthink importieren. In der Seitenleiste rechts auf "Siehe auch & Einordnen" klicken, dann siehst Du alle ähnlichen Dokumente.

In Word kannst Du dann zwei Dokumente mit "ExtrasÄnderungen nachverfolgenDokumente vergleichen..." vergleichen.
.

EDIT: Da waren andere schneller...
+1
marm26.01.2110:26
Wellenbrett
Apple Developer-Tool "FileMerge"
Ah, danke! Ich hatte schon mal BeyondCompare überlegt. Aber hier bekomme ich die Funktion ja sogar kostenlos.
Zusätzlich habe ich auch schon an TextSoap gedacht. Die immer gleichen Rechtschreibfehler zu korrigieren, muss auch nicht sein.

ThorsProvoni
Das probiere ich heute Mittag aus. Die Nützlichkeit der Funktion war mir noch gar nicht bewusst 👍🏻
0
Krypton26.01.2111:41
Ich kann da Kapeike nur zustimmen. Das Problem haben ja viele Leute schon viele Jahre. Die besten Lösungen (Änderungsmodus, eine Datei, Versionierung) wurden schon gebaut, man muss sie nur nutzen. Jetzt nach der zweitbesten oder drittbesten Workaround-Lösung zu suchen, würde ich nicht unbedingt als optimal ansehen.

Neben selbstgebastelten regulären Dateiservern kann ich auch die Online-Dienste (Office 365, Google Docs, iCloud Pages) empfehlen. Da liegt die Datei dann auf einem fixen Server und es können sogar mehrere Leute gleichzeitig daran arbeiten. Separat zugeschickte Dateien dann in Zukunft ignorieren und mit der Bitte des «Einpflegens» zurückschicken.

Es gibt zwar Tools, die Word/Excel/PPT-Dateien vergleichen , die ganze Arbeit (was ist unterschiedlich, was gehört zu welcher Version) bleibt dennoch an dir hängen.
Ich vermute mal, dass genau das gesuchte Tool auch nicht existiert, da es ja bessere Lösungen für das Problem gibt.
+1
ssb
ssb26.01.2114:03
Also wenn es um diverse Datei-Typen geht ist es ein wenig komplizierter, aber für effizientes Teamwork sollte man eher an einen selbst gehosteten Wiki-Server denken. Wir nutzen da eher Confluence (sowie andere Tools der Atlassian-Suite) teilweise mit ein paar Erweiterungen.
Confluence unterstützt dabei auch Versionierung.
Wenn am Ende ein Doc für Stakeholder (Kunden) erstellt werden soll, dann lassen sich Confluence Seiten auch als PDF oder docx exportieren. Dann hat das hin und her ein Ende.
Wenn es nur Text-Dokumente oder ähnliches wären, dann wäre ein git-Repository noch effizienter, aber mit proprietären Dateiformaten kann das nicht so gut umgehen.

Nun kostet das natürlich wieder Geld, aber wenn du deinem Chef mal vor rechnest, wie viel Zeit nur in der Organisation von solchen Dokumenten steckt, dann amortisiert sich das relativ schnell - ja nach Größe der Teams.

Manche Kollegen (insbesondere im Produktmanagement) benötigen da ein stringentes "Change-Management". Das kenne ich aus eigener Erfahrung. Manche Diskussion per Mail wäre in einer Confluence-Seite deutlich besser aufgehoben und wenn ein Kollege ein "lebendes Dokument" als docx oder ähnlich verschickt, dann schaue ich mir das gar nicht an sondern bitte umgehend darum, eine Confluence-Seite anzulegen.

Mittlerweile (hat nur ca. 10 Jahre gedauert) nutzt sogar unser Produktmanagement die Möglichkeiten der Atlassian-Suite (Portfolio-Management), welch eine Erleichterung für alle, insbesondere da sehr viele derzeit im HomeOffice sind.
+1
marm26.01.2115:18
ssb
Nun kostet das natürlich wieder Geld, aber wenn du deinem Chef mal vor rechnest, wie viel Zeit nur in der Organisation von solchen Dokumenten steckt, dann amortisiert sich das relativ schnell - ja nach Größe der Teams.
Eigentlich bin ich ja der Chef, aber das ist noch nicht jedem aufgefallen.
Confluence und git habe ich für sehr IT-fokussiert gehalten (ohne es wirklich zu wissen). Das hat mir aber schon einmal jemand empfohlen. Wär mal ein Versuch wert. So etwas wie Evernote, OneNote, Synology NoteStation wird jedenfalls nicht im Team angenommen - schon probiert.
0
ssb
ssb26.01.2116:46
marm
ssb
Nun kostet das natürlich wieder Geld, aber wenn du deinem Chef mal vor rechnest, wie viel Zeit nur in der Organisation von solchen Dokumenten steckt, dann amortisiert sich das relativ schnell - ja nach Größe der Teams.
Eigentlich bin ich ja der Chef, aber das ist noch nicht jedem aufgefallen.
Confluence und git habe ich für sehr IT-fokussiert gehalten (ohne es wirklich zu wissen). Das hat mir aber schon einmal jemand empfohlen. Wär mal ein Versuch wert. So etwas wie Evernote, OneNote, Synology NoteStation wird jedenfalls nicht im Team angenommen - schon probiert.
Wenn du der Chef bist, dann hast du - im Rahmen der gesetzlichen Möglichkeiten - Weisungsrecht. Wenn du sagst: wir nutzen jetzt XY, dann ist das so. Vorab eine Grace-Period, Schulungen verpflichtend anbieten, Migration planen (alte Dokumente in das System übertragen) und dann gibt es ein Stichdatum, nachdem Änderungen außerhalb des von dir gewählten Systems (und natürlich darfst du dich von deinem Team beraten lassen) als nicht gemacht gelten. Wer sich nicht umstellt, landet dann schnell in der Ecke "Arbeitsverweigerung". Die Vorgehensweise klingt jetzt hart, aber manchmal muss man man Teammitglieder zu ihrem Glück zwingen - es wird schon keiner deswegen kündigen und wenn doch, dann sind das meist keine guten Team-Player.
Git wie gesagt macht nur Sinn, wenn es dich um Text-Dateien handelt - es ist eben für Source-Code gedacht. Confluence ist nur ein Beispiel, welches wir seit einiger Zeit einsetzen (im Zusammenspiel mit Jira, Bitbucket und Bamboo) und nach anfänglichen Abneigungen wird es mittlerweile intensiv genutzt.
Früher hatten wir auch mal ein Lotus Notes System. Dann wurde versucht, es auf Active Directory umzustellen, aber das hatte nie funktioniert. Wir hatten auch einmal einen internen Wiki-Server (analog wie Wikipedia), aber die Bearbeitungen mit den Tags sind sehr umständlich.
Confluence ist da ein sehr brauchbares System, Dokumente lassen sich leicht bearbeiten - kaum Unterschied zu Word, aber es kann auch ein anderes WiKi sein.
+2
marm26.01.2122:54
Wellenbrett
In Devonthink könntest Du dann noch alle Word-Dokumente automatisiert in reine Textdokumente konvertieren lassen und mit den (kostenlosen) Apple Developer-Tool "FileMerge" zwei (vorab wiederum mit Devonthink ausgewählte) Textdokumente gezielt vergleichen. Da werden Unterschiede und Gemeinsamkeiten im Detail angezeigt.
Ich habe gerade mal 11 GB Xcode heruntergeladen (12.4 RC), mir den Paketinhalt angeschaut und die FileMerge.app in Programme geschoben. Diese App scheint so nicht zu funktionieren, aber 11 GB 29 GB ist schon arg viel um alles zu installieren, wenn ich den Rest nicht benötige.

Das tauchte im Fehlerbericht auf:
Termination Reason:    DYLD, [0x1] Library missing
Application Specific Information:
dyld: launch, loading dependent libraries

Dyld Error Message:
  dyld: Using shared cache: 64510D3B-D7B4-3C73-803C-AD9F01B790AD
Library not loaded: @rpath/DVTUserInterfaceKit.framework/Versions/A/DVTUserInterfaceKit
  Referenced from: /Applications/FileMerge.app/Contents/MacOS/FileMerge
  Reason: image not found
Lässt sich da von Hand noch ein fehlender Teil aus dem Paket holen?
0
Wellenbrett27.01.2108:28
Ja, das stimmt, das ist viel Speicherplatz.Nach der Installation liegt FileMerge hier: /Applications/Xcode.app/Contents/Applications/FileMerge.app
Filemerge hat sicherlich Abhängigkeiten in diesem Verzeichnis, vermutlich läßt sich das Contents-Verzeichnis jedoch nach der Installation wieder stark ausdünnen um Speicherplatz zu sparen. Die Konsole gibt dann ja Hinweise. Das bemängelte DVTUserInterfaceKit liegt im Verzeichnis /Applications/Xcode.app/Contents/SharedFrameworks/DVTUserInterfaceKit.framework
Vielleicht schaffst Du es damit ja ohne vorherige Installation...
+1
marm27.01.2110:11
Wellenbrett
/Applications/Xcode.app/Contents/Applications/FileMerge.app
/Applications/Xcode.app/Contents/SharedFrameworks/DVTUserInterfaceKit.framework
Das klappt!
Im Paket Xcode.app habe ich alles gelöscht bis auf diese beiden Dateien. Jetzt sind 28 MB von 29 GB übrig geblieben. Für die App FileMerge innerhalb der Xcode.app habe ich mir einen Alias im Programme-Verzeichnis eingerichtet.
Docs kann FileMerge allerdings nicht vergleichen.
+1
Wellenbrett27.01.2110:21
marm
Wellenbrett
/Applications/Xcode.app/Contents/Applications/FileMerge.app
/Applications/Xcode.app/Contents/SharedFrameworks/DVTUserInterfaceKit.framework
Das klappt!
Im Paket Xcode.app habe ich alles gelöscht bis auf diese beiden Dateien. Jetzt sind 28 MB von 29 GB übrig geblieben. Für die App FileMerge innerhalb der xCode.app habe ich mir einen Alias im Programme-Verzeichnis eingerichtet.
Toll das so klappt!
marm
Docs kann FileMerge allerdings nicht vergleichen.
Deswegen oben auch meine Empfehlung, sie in Devonthink automatisiert in Text konvertieren zu lassen. Genau genommen kann Filemerge auch Word-Dokumente wie Text behandeln - das ist allerdings bei Binärdateien nicht besonders hilfreich.
0
Wellenbrett27.01.2110:53
Wellenbrett
Toll das so klappt!
Normalerweise werde ich ohne Kaffee nicht gleich zum Analphabeten
0
marm27.01.2111:19
Falls jemand auf die Idee kommt, so auch an FileMerge zu gelangen: Nun habe ich noch ein Verzeichnis Developer in der Library aufgespürt mit 6 GB, gelöscht und danach funktionierte FileMerge nicht mehr.

Dabei fiel mir noch in der Library folgendes auf: system/library/dyld/dyld_shared_cache_x86_64 mit 2,5 GB. Warum braucht ein Rechner mit arm64 einen x86-Cache?! Egal. Muss jetzt Word-Dateien sortieren 🤪
0
Wellenbrett27.01.2111:31
marm
Egal. Muss jetzt Word-Dateien sortieren 🤪
Verstehe!
0
beachtimer27.01.2112:10
marm
Du hast völlig recht. Das versuche ich schon seit einem Jahr... Mir hilft das nur gerade nicht.

Ich arbeite mit Ingenieuren, Datenbank-Experten und Wirtschaftsingenieuren, die mir Word-Dokumente mit wechselnden Datennamen in Mails mit nichtssagendem Betreff senden. Ständig werde ich bei Mails in Kopie gesetzt, so dass ich jede Mail durchforsten muss, ob es für mich relevant ist. Das mache ich bei jeder Mails mehrmals, weil ich mir bei nichtssagendem Betreff auch nicht merken kann, ob ich die Mail schon berarbeitet habe usw.
Daher tagge ich mittlerweile Mails mit MailSuite, lege Mails in Devonthink ab, sage regelmäßig "lass uns den Server nutzen, den ich eingerichtet habe", ... Man gelobt mir immerhin seit einer Weile schon Besserung.

Zu dem Problem, Cluster von ähnlichen Dokumenten zu erstellen, habe ich wissenschaftliche Literatur gefunden, eine Software jedoch nicht.

Die deinige Vorgehensweise der EMail Bearbeitung ist falsch. Wenn Du in Kopie stehst musst Du nichts machen. Erst wenn Du im an stehst ist es was für Dich
+1
abonino27.01.2115:56
Die deinige Vorgehensweise der EMail Bearbeitung ist falsch. Wenn Du in Kopie stehst musst Du nichts machen. Erst wenn Du im an stehst ist es was für Dich
+++1
Ich denke auch an klarere Regeln.
Eine gemeinsame Daten-Ablage ist Gold wert.
+++1
An vielen Orten ist es legitim geworden, User darauf hinzuweisen, den richtigen Weg zu nehmen.
Spontan denke ich an 'soziale Leute und Behördenwege oder Gesundheitswesen ... .
=> Email einfach zurücksenden mit Standard-Hinweis.
Heikel ist es - wenn es ein Chef oder ein Kunde selber ist.
Lustig wird es - wenn viele CCs drin stehen und diesen Hinweis alle bekommen (Lerneffekt geht schneller).

Ein Amts-Direktorium hat vor 15J zwei Regeln an die Mitarbeiter rausgegeben:
Regel1: wenn das Telefon läutet - muss man es sofort und selber abnehmen (fertig delegieren ...)
Regel2: interne CCs und FWs in Emails sind verboten (Arbeit abschieben)
;-0
Gruss Arthur
0
ssb
ssb27.01.2115:58
marm
Falls jemand auf die Idee kommt, so auch an FileMerge zu gelangen: Nun habe ich noch ein Verzeichnis Developer in der Library aufgespürt mit 6 GB, gelöscht und danach funktionierte FileMerge nicht mehr.

Dabei fiel mir noch in der Library folgendes auf: system/library/dyld/dyld_shared_cache_x86_64 mit 2,5 GB. Warum braucht ein Rechner mit arm64 einen x86-Cache?! Egal. Muss jetzt Word-Dateien sortieren 🤪
Statt das FileMerge Tool in Xcode zu verwenden könntest du auch BBEdit nutzen. Wesentlich kleiner und kostenlos. Die kostenpflichtigen Features von BBEdit brauchst du in deinem Fall nicht. Tipp: lade dir BBEdit bei Barebones direkt herunter, nicht aus dem AppStore.
BBEdit ist eigentlich der Klassiker schon aus Pre-OS X Zeiten. Ich nutze beruflich BBEdit und Terminal häufiger für Softwareentwicklung als Xcode.
Zudem gibt es viele weitere teils kostenlose Tools, teilweise auch OpenSource, mit denen du eine GUI für „diff“ hast.
+1
marm27.01.2117:04
ssb
Tipp: lade dir BBEdit bei Barebones direkt herunter
BBEdit könnte ich auch zugleich als Markdown-Editor testen 👍🏻
0

Kommentieren

Sie müssen sich einloggen, um sich an einer Diskussion beteiligen zu können.