Push-Nachrichten von MacTechNews.de
WĂŒrden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt ĂŒber Push-Nachrichten erhalten?
Forum>Software>📊 Wie Tabelle mit 6 Millionen Zeilen öffnen?

📊 Wie Tabelle mit 6 Millionen Zeilen öffnen?

macuser11
macuser1109.04.2116:01
Hallo Freunde,

Ich hab eine CSV Datei (.csv/.txt Comma-separated values) mit ĂŒber 6'000'000 Zeilen.

🔎 Mit welchem Programm kann ich solch enorm grosse DatensĂ€tze/Datenfelder als Tabelle flĂŒssig darstellen, siehe Demo-Screenshot?




📄 PS: FĂŒr riesige Files (+Gigabyte) im Plain-text/Hex (ohne Formatierung) zu öffnen/visualisieren, benutze ich erfolgreich diese diese kostenlosen Apps:
0

Kommentare

marm09.04.2116:04
Ich werfe mal Panorama X in den Raum, weil mich auch interessiert, ob das jemand kennt: Das Programm soll besonders flott arbeiten. Es gab mal einen einfachen Ableger der Datenbank als Tabellenkalkulation.
0
Holger111109.04.2116:20
Moin,
Wenn du einen Windows Rechner hast mit MS Excel kannst du dir von MS PowerPivot kostenlos runterladen. Damit geht das. Leider gibt’s PowerPivot nich fĂŒr Excel auf dem Mac.
+1
Bodo_von_Greif09.04.2116:33
Hi,

Interessante Fragestellung, die darauf hinaus lÀuft ob Programme Editoren nur das
bearbeiten können was in den Speicher passt (sei er auch noch so gross) oder
intelligenter vorgehen.

Erstaunlicherweise ist MS Word dazu fÀhig,

Ich wĂŒrde verwenden.

Nette Übersicht auch

Ich verwende natĂŒrlich auch sed, find, grep etc wo die Dateien beliebig gross sein dĂŒrfen
und auch sehr performant bearbeitet werden.

Gruss,

Bodo
„[x] nail here for new monitor“
0
milk
milk09.04.2117:02
Wenn ich den Fragesteller richtig verstehe, dann sucht er eine tabellarische Darstellung, die sich flĂŒssig scrollen lĂ€sst. Die Empfehlung von Texteditoren wird ihm da nicht helfen, und seien sie auch noch so gut.

Eine Antwort auf die Frage habe ich leider nicht.
+1
almdudi
almdudi09.04.2117:13
Ich habe auch keinen Tipp, schlage aber vor, mal zu ĂŒberlegen, ob manuelles Durchscrollen bei derart großen DatensĂ€tzen ĂŒberhaupt der bestmögliche Umgang mit den Daten ist oder ob man das, was man damit machen will, nicht vielleicht mit anderen Mitteln effektiver erreichen kann.
Die Daten sollen ja sicher nicht nur angeschaut werden sondern irgendwie weiterverarbeitet, das geht sicher auch ohne tabellarisch-grafische Darstellung.
Nur so als Idee.
+2
michimaier09.04.2117:15
Ich bin nicht sicher welche, aber OpenOffice oder eine der Àhnlichen Open Source Office Lösungen können das... (ich denke es war OpenOffice, könnte aber auch LibraOffice gewesen sein...)
0
macuser11
macuser1109.04.2117:23
Vielen Dank für eure ersten Inputs

Nein, habe leider kein MS & Windows.

Genau, Texteditoren habe ich schon (siehe meine App-Liste), was ich suche ist eine Möglichkeit, Tabellen oder eine Liste unterschiedlich langer Listen abzubilden.

glogg und Ähnliches (Text editor) haben eine GUI/Bedienoberfläche um den Inhalt anzuzeigen, aber eben, NUR als Zeichenkette (String), aber nicht als Tabelle.

Ich suche einen Weg, welcher Inhalte dabei in Zeilen (waagerecht) und Spalten (senkrecht) simpel darstellt und dursuchen kann.

+2
smile
smile09.04.2117:44
Bei 6 Millionen Zeilen vielleicht besser kein Power-Excel suchen, sondern die CSV in ein Datenbanksystem importieren und dann die "Suche" per SQL machen?
„Deinen Mac kannst du lieben oder hassen - Dein PC wird Dir immer scheißegal sein.“
+11
herwighenseler
herwighenseler09.04.2117:46
sqlite3 auf der Kommandozeile? Ist bei macOS ja dabei.
„Life is a heuristic guided depth-first search without backtracking“
+2
olbea09.04.2117:54
Oder mal Claris Filemaker versuchen...
+2
MikeMuc09.04.2117:57
Filemaker kann das theoretisch auch, nur weiß ich nicht, ob es bei der Anzahl der Datensätze noch eine flüßige Anzeige gibt. Jemand mit FM und einer entsprechenden Anzahl von Datensätzen müßte mal was dazu sagen.
Deine Datei kannst du nicht irgendwo "zur Verfügung / Testen" stellen?
0
marm09.04.2118:09
marm
Ich werfe mal Panorama X in den Raum, weil mich auch interessiert, ob das jemand kennt: Das Programm soll besonders flott arbeiten. Es gab mal einen einfachen Ableger der Datenbank als Tabellenkalkulation.
Nun, Panorama X ist vesonders schnell, weil der Datensatz komplett im RAM verarbeitet wird. SQL oder Filemaker sollte schon konzeptionell langsamer wein.
0
DTP
DTP09.04.2118:34
Ich habe gerade mal ein CSV mit 1 Millionen Zeilen und 21 Millionen Zufallszahlen erzeugt.
CSV ist 250 MB groß.

Lässt sich mit Excel problemlos und schnell öffnen und in eine Tabelle konvertieren und auch flüssig scrollen.

Numbers hat da durchaus dran zu knabbern, MBPi hat 5 Minuten alle Lüfter auf Hochtouren laufen und solange gebraucht um das zu öffnen. Danach aber auch flüssig zu scrollen.

Ist dein Problem die Excel bzw. Numbers Limitierung von 1 Millionen Zeilen? Oder das "flüssige Scrollen"?
+3
michimaier09.04.2120:28
@DTP
Excel schafft etwas mehr als 1 Mio, ich glaube 1,06Mio dann kommt eine Fehlermeldung
+3
camaso
camaso09.04.2121:19
DTP
Ich habe gerade mal ein CSV mit 1 Millionen Zeilen und 21 Millionen Zufallszahlen erzeugt.
CSV ist 250 MB groß.

Lässt sich mit Excel problemlos und schnell öffnen und in eine Tabelle konvertieren und auch flüssig scrollen.

Numbers hat da durchaus dran zu knabbern, MBPi hat 5 Minuten alle Lüfter auf Hochtouren laufen und solange gebraucht um das zu öffnen. Danach aber auch flüssig zu scrollen.

Ist dein Problem die Excel bzw. Numbers Limitierung von 1 Millionen Zeilen? Oder das "flüssige Scrollen"?
Kannst Du die uns zum Download anbieten?
0
milk
milk09.04.2122:55
camaso
Kannst Du die uns zum Download anbieten?
Oder besser das 2KB kleine Skript, mit dem man sich die selbst erzeugen kann?
+3
Siebbi
Siebbi10.04.2100:16
Habe auch gerade das Problem einer Datenbank mit mehreren Tabellen in CSV, von der eine Tabelle 7,5 Millionen Datensätze enthält. Bisher hab ich es nicht geschafft die Daten dieser Tabelle komplett in eine neue Datenbank zu laden. Habe es in LibreOffice Base und Ninox probiert. Ninox steigt bei portionsweisem Import bei ca. 6 Mio. aus und reagiert nicht mehr. Der beste Weg in LibreOffice Base die Daten über Calc aus CSV zu importieren erforderte das Splitten (Text File Splitter) in mehrere kleinere Dateien, da Calc auch bei ca. 1 Mio. Zeilen Limit hat. Hab es trotzdem nicht geschafft weil Base irgendwann aussteigt und nicht mehr reagiert. Der bisher größte Fortschritt war eine neue Base-Datenbank mit direkter Verbindung zur CSV-Datei. Damit konnte ich bisher nicht vernünftig arbeiten (bin Base Anfänger). Aber lesen geht zumindest!
Falls jemand mal damit rumspielen will:
United States Department of Agriculture Agricultural Research Service - National Nutrient Database for Standard Reference unter "Full Download of All Data Types" kann man 112 MB als ZIP laden. Die Tabelle food_nutrient.csv hat hinterher 416 MB.
+1
DTP
DTP10.04.2113:32
camaso
DTP
Ich habe gerade mal ein CSV mit 1 Millionen Zeilen und 21 Millionen Zufallszahlen erzeugt.
CSV ist 250 MB groß.

Lässt sich mit Excel problemlos und schnell öffnen und in eine Tabelle konvertieren und auch flüssig scrollen.

Numbers hat da durchaus dran zu knabbern, MBPi hat 5 Minuten alle Lüfter auf Hochtouren laufen und solange gebraucht um das zu öffnen. Danach aber auch flüssig zu scrollen.

Ist dein Problem die Excel bzw. Numbers Limitierung von 1 Millionen Zeilen? Oder das "flüssige Scrollen"?
Kannst Du die uns zum Download anbieten?
Klar: https://we.tl/t-CoXnd9ZbYp

Ist aber auch ganz einfach, so etwas manuell zu erzeugen. Daher auch kein Script, den das hätte mich mehr Zeit gekostet.

Manuell:
  • Excel starten
  • In erste Zelle =RAND() eingeben
  • Apfel+C
  • Ende drücken, dann Shift+Cursor Down
  • Apfel V (das sind dann über 1 Millionen Zufallszahlen)
  • Apfel C
  • Cursor rechts. Dann so oft Shift+Cursor Rechts wie noch Spalten hinzugefügt werden sollen
  • Apfel V
  • Save as CSV
+5
MikeMuc10.04.2116:10
Filemaker 15 auf meine alten iMac aus Ende 2013 brauch mit dem Filemaker15 ca 4,5Min. zumImport der CSV-Datei mit7.547.844 Zeilen. In der Tabellenansicht kann man wunderbar und fix scrollen. Wenn man nach etwas suchen will, dauert es ein wenig bis die Spalte indiziert ist und dann geht es auch sehr fix ab der 2. Suche.
Filemaker ist also der Aufgabe gewachsen. Zumindest mein alter 15er.
+4
BMueller10.04.2123:44
Ich denke auch die Tabelle gehört in ein Datenbanksystem. Ob nun Filemaker, oder mysql oder PostgreSQL oder was auch immer.
+4
Macsign
Macsign11.04.2100:13
Vielleicht geht auch Datagraph . Das soll mit großen Datenmengen umgehen können. Ist ĂŒbrigens ein tolles Programm. Mit solchen Datenmengen musste ich aber auch noch nicht arbeiten.
+2
pcp
pcp11.04.2111:52
Tablecruncher vielleicht ein Ansatz?
„o.0“
+1
JKo12.04.2109:38
FileMaker kann diese Datenmengen mit Leichtigkeit verwalten.
Mit FileMaker 19 ist der Import in 00:01:25 erledigt.
6 x importiert, auf 6 Millionen DS scrollt die Liste absolut ruckelfrei. Eine Suche lĂ€uft ebenfalls ohne Zeitverzögerung. Die Datei ist dann etwa 3 GB groß. Diese GrĂ¶ĂŸe Ă€ndert sich mit der Indizierung.
+6
MikeMuc12.04.2109:55
JKo
Wahrscheinlich ist dein Rechner einfach schneller und neuer als meiner.
Was michwundert, ist, daß du vor der 1. Suche angeblich keine Verzögerung hast. Bei mir ist es nĂ€mlich (noch) so, das ein Feld erst dann indiziert wird, wenn man 1x drin gesucht hat. Ist es dann erstmal indiziert, bekomme ich auf sofort das Ergebnis.

Schade an FM ist nur, das er inzwischen recht teuer ist. Aber wenn man ihn einmal hat, mag man ihn nicht mehr missen.
+2
macfori12.04.2111:47
Da aus deinem Posting nicht wirklich hervorgeht, was du vor hast / auswerten möchtest, einfach mal in den Raum gestellt: UltraEdit (gibts fĂŒr WIndows und Mac) .

MĂŒsste eigentlich auch als Testversion ladbar sein.
-2
gfhfkgfhfk12.04.2111:48
FĂŒr solche Probleme nutzt man eigentlich Programmiersprachen wie R. Dabei ist dann egal woher die Daten stammen: Dateien oder Datenbanken.
+4
carlo12.04.2113:34
PSPP könnte eine Option sein, auch wenn man keine Statistik betreiben will.
Kann das gerade nicht testen, die Entwickler sprechen aber von bis zu „1 Billion cases“.
0
milk
milk12.04.2114:29
MikeMuc
Schade an FM ist nur, das er inzwischen recht teuer ist. Aber wenn man ihn einmal hat, mag man ihn nicht mehr missen.
Außer du willst ein wenig mehr als nur ein bisschen was darin programmieren. Dann lernst du ihn hassen.
Knapp 700 Euro fĂŒr eine Einzelplatzlizenz ist aber auch nichts mehr, was man als Normalsterblicher heute noch macht.
+1
Teddie12.04.2117:21
Querious hat einen CSV Editor dabei – habe gerade mal eine 6 GB CSV von mir geöffnet.
Der Ladevorgang dauert etwas (71 Mio Zeilen ), aber die Daten lassen sich flüssig anzeigen und bearbeiten.
0
michimaier12.04.2119:16
@macuser11
Die Datei heisst aber nicht zufÀllig Germany 01.txt ?
+2
Mecki
Mecki12.04.2123:14
DTP
Klar: https://we.tl/t-CoXnd9ZbYp
Öffnet bei mit mit TextEdit in 5 Sekunden bei mir Braucht ca. 30 Sekunden in LibreOffice, scrollt danach aber absolut flüssig. Und mein MacBook Pro ist von 2014.

Siebbi
United States Department of Agriculture Agricultural Research Service - National Nutrient Database for Standard Reference unter "Full Download of All Data Types" kann man 112 MB als ZIP laden. Die Tabelle food_nutrient.csv hat hinterher 416 MB.
Das klingt schon anspruchsvoller. Hier ist das Problem, das CSV ein bekacktes Format ist und LibreOffice das erst mal komplett scannen muss, um überhaupt wissen zu können wie er es importieren soll und das dauert schon ewig.

Ich würde also wahrscheinlich probieren ein Skript zu schreiben, dass aus CSV irgend ein anderes Format macht, das sich hoffentlich besser parsen lässt und mit dem Apps ggf. leichter umgehen können. Es müsste aber auch ein Format sein, das man leicht erzeugen kann. Microsoft XML Spreadsheets sind recht einfach zu erzeugen, aber ob die am Ende mehr nutzen oder schaden, das kann ich im Vorfeld nicht beurteilen, denn auch wenn XML leichter zu parsen ist, braucht es deutlich mehr Resourcen beim parsen.
0
janos_ad
janos_ad12.04.2123:44
Mein heißer Tipp fĂŒr Datenauswertung von solchen Datenmengen ist Python.
-3
MikeMuc13.04.2108:08
janos_ad
Die Frage war ursprĂŒnglich wie und womit solch Datenmengen flĂŒssig angezeigt werden können. Von Auswertung war keine Rede

Leider beteiligt sich der Fragesteller kaum. Er könnte gerne mal den Hintergrund der Frage beleuchten so es ihm um mehr als die bloße Anzeige geht. Das Beispiel ist ja nur eine Tabelle mit Koordinaten und Ortsnamen, da will man ja ĂŒblicherweise noch was mit machen außer sich an der Liste zu erfreuen.
+4
DTP
DTP13.04.2108:14
Mecki
DTP
Klar: https://we.tl/t-CoXnd9ZbYp
Öffnet bei mit mit TextEdit in 5 Sekunden bei mir
Als Tabelle in TextEdit? Wie hast du das hinbekommen?
0
Perdiste puesto primero13.04.2108:55
MikeMuc
Leider beteiligt sich der Fragesteller kaum. Er könnte gerne mal den Hintergrund der Frage beleuchten so es ihm um mehr als die bloße Anzeige geht. Das Beispiel ist ja nur eine Tabelle mit Koordinaten und Ortsnamen, da will man ja üblicherweise noch was mit machen außer sich an der Liste zu erfreuen.

Ja, das wäre exakt auch meine Frage. Wenn jemand nach den Koordinaten von Paris sucht, sind diesem die Koordinaten von Rio de Janeiro vermutlich völlig Wumpe. Und wer wissen will, welche Städte auf 74° westlicher Länge liegen, wird sich kaum für europäische oder asiatische Städte interessieren. Warum sollten diese also überhaupt dargestellt werden? Solche Probleme werden üblicherweise mit Programmen gelöst, die tatsächlich nur das anzeigen, was man wissen will, und auf der Datei rummehren ohne eben alles anzeigen zu wollen/müssen (und gerade das obige Beispiel ist jetzt nicht besonders komplex und ein einfaches Programm (oder Skript) dafür lässt sich an einem Tag schreiben - mit "sophisticated" Funktionen wie Längen-/Breitenbereiche, hübsche GUI etc. vielleicht zwei bis drei Tage (vgl. dazu die Zeit zig Programme zusammen zu suchen, auszuprobieren, wieder zu löschen, etc.). Das spart nicht nur Hard- und Softwarevorraussetzungen sondern ist auch deutlich übersichtlicher für denjenigen der das Ganze benutzen will/soll.
0
macuser11
macuser1114.04.2100:37
Uhuuu guten Morgen allerseits, keine Angst, ich habe den Thread nicht vergessen und für eure Antworten bin ich sehr dankbar 💝

Wie ich sehe, bin ich nicht der einzige, der vor diesem Dilemma steht. Ich gehe kurz auf eure Fragen/Argumenten ein:

  • Mein Problem bezüglich NUR der Anzeige, keine Datenauswertung (inkl. kleiner Suchfunktion, aber wenn mehr möglich ist, umso besser) ist:
  • 1. das öffnen, bzw. lässt sich überhaupt öffnen/App bricht nicht ab wie Excel/Numbers
  • 2. flüssiges Scrollen, weil alten Mac mit Harddisk
  • (im Plain Text oder Hex ist die grösse KEIN Problem)
  • Eure Software Tipps schaue ich mir in Ruhe an
  • FileMaker Version 11 (habe ich, wird getestet)
  • Nein, die Datei heisst nicht "Germany 01.txt" (nicht googleln, aber danke )
  • SQL kann ich (noch) nicht

Da ihr gefragt habt, leider kann ich euch meine Datei nicht zur Verfügung stellen, aber dafür könnt ihr unter Have I Been Pwned die Passwortliste downloaden und SHA-1 und Häufigkeit trennen (search/replace) und ihr habt zwei Spalten und Millionen von Zeilen :

Downloading the Pwned Passwords list ~ 12.50GB (.7z Format zum öffnen: The Unarchiveâ€Șr)
0
olbea14.04.2106:10
FileMaker 11? Aktuell ist v19. Das das ĂŒberhaupt noch lĂ€uft...
macuser11
Eure Software Tipps schaue ich mir in Ruhe an
FileMaker Version 11 (habe ich, wird getestet)
In den letzten Jahren hat sich bei FileMaker/Claris einiges getan auch beim Thema Performance.
0
MikeMuc14.04.2108:46
olbea
Ich habe mit FM 15 unter Mojave getestet. Der 11er lÀuft mit 10.13 noch ganz gut meine ich.
Wie die Performance ohne SSD ist kann ich nicht beurteilen, aber FN war schon immer sehr fix. Nur falls eine Indizierung benötigt wird, dauert es bei großen Datenmengen etwas bis die fertig ist. Ab dann ist er wieder fix unterwegs
0
Kronar (back)14.04.2111:32
Ich nutze fĂŒr solche Sachen immer MAMP, sprich mysql im Zusammenspiel mit einem SQL Tool, wenn man ein bisschen SQL kann (select * from Tabelle1 t1 where t1.spalte2 = 'Wert'), dann kann man damit wunderbar auch sehr sehr große Datenmengen auswerten...

Gruß
Kronar
0
macuser11
macuser1115.04.2121:25
ahh Cool, ich habe/hatte FileMaker mit meinem alten Rechner bekommen, ich wusste nicht, dass FM noch so "mächtig" ist.

Ja SQL höre ich immer wieder, vielleicht ist eine Einführung (Danke für den Tipp select * from Tabelle1 t1 where t1.spalte2 = 'Wert' ) gar nicht einmal so schlecht.

Mal so doof im Raum gefragt, gibt es keinen Terminal-Befehl, der die CSV-Datei einliest und so wie die das Betriebsystem mit der Leertaste eine Übersicht der Tabelle visuell ausgeben kann, obwohl File ja .csv ist?

1. Paste/open table data:
Stunde,Montag,Dienstag
1,Mathematik,Deutsch
2,Sport,Englisch
3,Sport,Religion

2.Text oder Markdown table: (Import data from CSV file)
+--------+------------+----------+
| Stunde | Montag     | Dienstag |
+--------+------------+----------+
| 1      | Mathematik | Deutsch  |
+--------+------------+----------+
| 2      | Sport      | Englisch |
+--------+------------+----------+
| 3      | Sport      | Religion |
+--------+------------+----------+

PS: die interne Konsole-App kann auch sehr gut mit grossen Daten umgehen, nur leider zeigt es nicht die vollständigen Datensätze an, sondern nur einen Teilausschnitt, somit ist die Suche (im Teilabschnitt) nutzlos

Sowohl "Tabellen-"Terminal oder Konsole würde mir schon reichen falls die ganze Datei geladen werden kann, da sogar die Suchfunktion, bzw. integriert ist.
0
enchiriadis15.04.2121:35
Ein Vorredner hatte doch die Lösung. Python.
0
macuser11
macuser1116.04.2114:47
Vielen Dank für den Link Python + Pandas-Modul: CSV- und DSV-Dateien lesen.

Genau so etwas simples Python & Pandas genügt (mir).


Habs "kurz" versucht, Panda lässt sich auf anhieb irgendwie nicht installieren (alter Mac und so).

Deshalb habe ich die Frage nach Bordmitteln von Mac OS X ins Spiel gebracht
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.