Bereiche
News
Rewind
Tipps & Berichte
Forum
Galerie
Journals
Events
Umfragen
Themenwoche
Kleinanzeigen
Interaktiv
Anmelden
Registrierung
Zu allen empfangenen Nachrichten
Suche...
Zur erweiterten Suche
Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum
>
Hardware
>
Benchmarks lokale LLM in LM Studio
Benchmarks lokale LLM in LM Studio
Megaseppl
09.01.26
18:35
Moin,
ich bin am Überlegen, mir einen Mac zu holen, der nichts weiter tut als ein LLM lim LAN aufen zu lassen (für diverse Automatisierungsaufgaben).
Da ich online zu wenig dazu finden konnte, habe ich eine Bitte an Euch:
Hat jemand von euch einen Mac mini m4 Pro oder einen Mac Studio M4 Max mit mindestens 32 GB und könnte einen Performancetest machen?
Da LLMs neben der GPU auch stark mit RAM-Geschwindigkeit skalieren, würde mich vor allem interessieren, wie der M4 Pro im Vergleich zum M4 Max (oder zu meinem M1 Max) abschneidet.
Falls Ihr Lust habt: Die Installation ist recht leicht.
- Installiert die aktuelle Version vom
- Ladet im LM Studio das Modell
qwen/qwen3-vl-30b
- Startet das Modell und gebt folgenden Prompt in das Textfeld:
Schreibe mir ausführliche Fakten zu der Webseite mactechnews.de. Mindestens 3000 Zeichen.
Könnt Ihr mir die Geschwindigkeit hier als Antwort posten?
Mich interessiert folgender Wert unter der Antwort: z.B. "43.86 tok/sec • 3269 tokens • 3.47s to first token"
und natürlich die genauen Spezifikationen eures Macs (Prozessor, Anzahl Kerne/GPUs und RAM)
Gerne auch mit anderen M-Macs.
Mindestens 24GB RAM (möglichst 20GB frei) muss er allerdings haben, sonst läuft das Modell nicht.
Ich werde hier auch bald eine Anleitung posten, wie man mit Hilfe von Apples Shortcut und LM Studio komplett lokal seine Dateien via Rechtsklick im Finder beschreiben (indizierbar im Finder-Kommentar) und automatisiert umbenennen kann. Für Screenshots, gescannte PDFs oder Verbesserung der Datei-Archivierung kann das vielleicht auch für euch interessant sein. Und anders als die meisten Online-Tutorials die ich dazu fand, geht das ganze ohne ChatGPT/Cloud und ist richtig gut.
Hilfreich?
+8
Kommentare
sioh
09.01.26
19:49
Zwar nicht via LM Studio sondern Open WebUI, aber:
Response Token/s: 48,04
Total Tokens: 6688
Duration: 2m 24s
MBP Pro 16" mit M4 Pro und 48GB RAM
Hilfreich?
+4
teletower
10.01.26
00:28
Moin.
LM Studio & llm qwen3-vl-30b-a3b-instruct
• 95.38 tok/sec
• 2818 tokens
• 0.29s to first token
MBP Pro 16" mit M4 Max und 64GB RAM
Das hat mich jetzt aber auch inspiriert.
Hilfreich?
+4
B_Babb
10.01.26
06:11
Gwen3 VL 30b
LM studio 0.3.37
85.73 Tok/Sek
3032 Tokens
1.14s bis zum ersten Token
MBP 14 M4Max 128GB
Hilfreich?
+3
Jörg H.
10.01.26
08:24
Qwen3VL 30B A3B Instruct
58.87 tok/sec
2854 tokens
0.43s to first token
M1 Ultra 128GB
Hilfreich?
+4
warp10
10.01.26
10:47
Gwen3 VL 30b
LM studio 0.3.37
60,69 Tok/Sek
3956 Tokens
2.51s bis zum ersten Token
M2 Ultra 64GB
Hilfreich?
+4
michimaier
10.01.26
11:55
Schau mal in dem Kanal vorbei, da bekommst du viele Infos die du für sowas benötigst
https://www.youtube.com/@AZisk
Meine Erfahrung zu Qwen und den anderen lokalen LLMs, ab 32GB funktionieren die auch auf einem M1 Max ganz ok - die Frage ist halt was du machen willst, meine Context Länge ist recht gross, insofern komm ich mit den lokalen LLMs leider nicht voran und muss auf Claude ausweichen ( Gemini als Notlösung )
EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.
Hilfreich?
+3
JeDI
10.01.26
14:30
Das fand ich zu dem Thema ganz interessant:
Hilfreich?
+3
bjbo
10.01.26
15:09
michimaier
...
EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.
Muss man alles abwägen. Ich habe hier einen Mac Studio mit M1 Max und 32GB RAM laufen, gebraucht für 800 Euro gekauft um all das mal auszuprobieren. Wichtig war hier der Punkt Privatsphäre, also lokale LLMs.
Sicher ist das Teil nicht so schnell, wie die M4 Max oder M3 Ultra aus dem Heise-Video, aber für die Zwecke, für die ich das System nutze, als Assistent beim Entwickeln von Software, läuft das wirklich eindrucksvoll gut mit den verfügbaren Modellen. Vor allem Devstral-2 Small (das große läuft natürlich nicht mit 32GB RAM) macht eine wirklich gute Figur bisher. Ich habe mittlerweile meine Entwicklungsarbeit hauptsächlich auf den Rechner verlagert. Also ist es nicht zwangsläufig eine einseitige Investition. Ursprünglich dachte ich an einen Mac mini mit M4 Pro, Es ist dann aber doch ein gebrauchter geworden. Aber das Mac Studio hat mich irgendwie abgeholt, überlege auf ein neues umzusteigen mit einem M5 Max, wenn es den irgendwann gibt.
Also als Einstieg in das Ganze, kann ich ein gebrauchtes Mac Studio empfehlen.
Hier die Benchmarks:
45.92 Tok/Sek
2490 Tokens
0.85s bis zum ersten Token
Edit: LM Studio Version 0.3.36 mit Qwen3 VL 30b a3b
Hilfreich?
+5
Megaseppl
11.01.26
13:49
Moin! Danke euch allen erstmal für Eure Antworten!
Ich habe schon befürchtet, dass der Unterschied zwischen M4 Pro und M4 Max größer ist. Dass der aber so groß ist und der Unterschied zwischen M1 Max und M4 Pro so gering, das überrascht mich dann doch.
Sinn macht es für mich am ehesten hier auf einen Mac Studio mit M4 Max zu gehen. Ursprünglich war eher ein Mac Mini der Plan.
Gerne würde ich natürlich auf den M5 Max warten, zudem ich es eigentlich auch nicht so eilig habe - allerdings befürchte ich, dass Apple hier beim RAM-Upgrade dann nochmal so richtig die Preise erhöhen könnte. Im Moment gibt es den Mac Studio mit M4 Max, 64 GB RAM für etwas über 3000 Euro.
sioh
EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.
Meine Abos würde ich weiterhin nutzen, aber nicht um Dateien hochzuladen wie Arztberichte, Briefe, Rechnungen etc.
Letztlich geht es mir allerdings auch, so ehrlich muss ich auch mir selbst gegenüber sein, um Spaß. Ich finde die Möglichkeiten, die einem lokale LLMs mittlerweile bieten, einfach großartig! Zudem nutze ich das Know-How, das ich dadurch privat erlerne aber auch beruflich. Das geht bei mir eh immer Hand in Hand. Und gerade für Firmen bis hin zu KMU, kann so eine kleine reine OnPrem-Lösung absolut Sinn machen.
JeDI
Das fand ich zu dem Thema ganz interessant:
Den Film kenne ich natürlich. Zeigt auch ziemlich klar, dass ein Mac hier in einer bestimmten Größenordnung absolut ideal ist.
Was ich mich nur frage ist, warum er für seine Bild-Model-Tests nicht einfach Draw Things verwendet hat. Finde ich weit angenehmer in der Nutzung als Comfy UI auf dem Mac und läuft auch mit Flux.
Hilfreich?
+3
ssb
12.01.26
10:12
Wenn dir hohe Leistung mit großen LLMs wichtig ist, kannst du dir auch mal AI-Cluster mit Exo
(OpenSource) anschauen. Der Hardwareaufwand ist natürlich höher (mehrere Mac Mini oder Mac Studio mit richtig viel RAM mit RMA via TB5), aber das soll eine potente Lösung für größere Modelle sein.
Hilfreich?
+3
Megaseppl
12.01.26
10:28
ssb
Wenn dir hohe Leistung mit großen LLMs wichtig ist, kannst du dir auch mal AI-Cluster mit Exo
(OpenSource) anschauen. Der Hardwareaufwand ist natürlich höher (mehrere Mac Mini oder Mac Studio mit richtig viel RAM mit RMA via TB5), aber das soll eine potente Lösung für größere Modelle sein.
Das wäre bei mir definitiv overkill.
Und selbst bei den Änderungen durch Apple bei der Thunderbolt-Kommunikation (direkt statt über TCP/IP) skaliert es nicht ansatzweise so gut als dass ich das aktuell nutzen wollen würde. Zudem die Einrichtung und Betrieb laut diverser Tester auch nicht reibungslos läuft in den Beta-Versionen. Ich glaube aktuell macht es mehr Sinn für mehr Performance in Richtung Mx Ultra zu gehen.
Hilfreich?
+2
Dayzd
12.01.26
22:12
MBP14" M4 Max 48 GB unter Sequoia (15.7.3)
LM Studio 0.3.37
Model : QWEN3-VL-30B
84.31 tok/sec
3435 tokens
2.77s to first token
Hilfreich?
+2
Moranai
13.01.26
08:00
Auch wenn ich kein Budget für eine lokale KI-Maschine übrig habe, finde ich es spannend hier mitzulesen und bin erstaunt, wie groß der Unterschiedd zwischen den verschiedenen M-CPU Generationen ist. Mit den neuen KI-Beschleunigern im M5 dürfte der Sprung nochmal deutlich nach oben gehen. Wäre cool wenn jemand sofern verfügbar sein Ergebnis mit einem solchen posten könnte. Und sobald M5 Pro & Max & Ultra da sind wird es nochmal spannend. Ich fand (für den täglichen Bedarf) den Sprung vom M1 zum M4 (jeweils Basisversion) schon krass spürbar.
Hilfreich?
+4
Huba
13.01.26
10:54
Zum Thema Performance: Ich habe diesen Test mal mit einem ehrwürdigen MacPro5.1 gemacht (3,33 GHz 6-Core Intel Xeon, 48GB RAM). Das funktioniert natürlich nicht mit LM Studio, ich habe stattdessen Ollama v0.135 mit qwen3-vl:30b genutzt.
Zwei Durchgänge:
1. Thought for 2858.8 seconds, die Antwort selbst dauerte ca. 39 min und produzierte 1.129 Wörter
2. Thought for 637.3 seconds, die Antwort selbst dauerte ca. 1 Stunde und produzierte 1.175 Wörter
Die genaueren Benchmarks (Response token/s, total tokens, duration) wollte mir Ollama auch auf Nachfrage nicht nennen. Ich konnte aber jede einzelne Silbe per Handschlag begrüssen.
Die Ergebnisse haben sich signifikant bei den Fakten widersprochen, das will ich aber nicht weiter kommentieren.
Es ist natürlich absurd, ein LLM lokal auf einem ollen MacPro laufen zu lassen -- aber es geht. Und es zeigt sehr eindrucksvoll, wie die Entwicklung in den letzten 15 Jahren vorangegangen ist!
Hilfreich?
+6
Megaseppl
13.01.26
12:04
Huba
Es ist natürlich absurd, ein LLM lokal auf einem ollen MacPro laufen zu lassen -- aber es geht. Und es zeigt sehr eindrucksvoll, wie die Entwicklung in den letzten 15 Jahren vorangegangen ist!
Oh Gott! Das klingts ja gruselig!
Worauf lief das LLM denn? Auf der CPU oder auf deiner Grafikkarte?
Hilfreich?
+2
ssb
13.01.26
13:33
Megaseppl
Das wäre bei mir definitiv overkill.
Und selbst bei den Änderungen durch Apple bei der Thunderbolt-Kommunikation (direkt statt über TCP/IP) skaliert es nicht ansatzweise so gut als dass ich das aktuell nutzen wollen würde. Zudem die Einrichtung und Betrieb laut diverser Tester auch nicht reibungslos läuft in den Beta-Versionen. Ich glaube aktuell macht es mehr Sinn für mehr Performance in Richtung Mx Ultra zu gehen.
Natürlich sind sowohl RMA via TB5 (wurde mit macOS 26.2 eingeführt) wie auch exo neu und lezteres noch nicht ausgereift. Aber es zeigt, in welche Richtung es geht. Spannend find ich durchaus, dass bei größeren Modellen (und das waren Setups mit in Summe ±1 TB Unified Memory) sich einzelne Schritte/Phasen auf die Nodes verteilen ließen, so dass der 1. Mac schon an Token 3 arbeitet, während der 4. gerade Token 1 auswirft (ist natürlich massiv vereinfacht, aber in diese Richtung geht es). Mit RMA hat man da deutlich geringere Latenzen (vergleichbar mit InfiniBand), weil ein Node auf den Speicher der anderen Nodes zugreifen kann.
Aber ja - overkill trifft es gut, zumal da wirklich große Modelle genutzt wurden. Aber viele sprechen davon, dass eine solche Infrastruktur durchaus eine Konkurrenz zu NVidia-Lösungen darstellt und das teilweise zu einem günstigeren Anschaffungspreis (und solche Mac Studios mit viel RAM sind wirklich nicht günstig).
Mir persönlich reicht ein 7B codegemma via Ollama auf meinem Mac, wenn ich mal was zu Software-Enwicklung fragen möchte - für viele andere Themen würde ich KIs eh noch nicht trauen
In den Bereichen, die schlecht dokumentiert sind und wo mir auch stackexchange etc. via Suchmaschine kaum hilft, bietet auch eine KI nicht viel, weil ja eben die Dokumente beim Training nicht verfügbar waren.
Hilfreich?
+4
domtom
14.01.26
10:09
71.42 tok/sec
1166 tokens
3.94s to first token
LM Studio 0.3.38
openai/gpt-oss-20b
MBP Pro 14" 36GB RAM M3 Max
Hilfreich?
+4
Megaseppl
14.01.26
10:35
Dankeschön!
Hier eine aktualisierte Grafik (faulheitshalber diesmal von ChatGPT erstellt)
Hilfreich?
+6
Marcel_75@work
26.02.26
09:04
Wir sollten diesen Thread mind. noch bis zum erscheinen der M5 Max / Ultra / … am Leben erhalten für aussagekräftige Vergleiche – das wird spannend.
Hilfreich?
+1
Kommentieren
Sie müssen sich
einloggen
, um sich an einer Diskussion beteiligen zu können.
Raumakustik
Tim Cook löst mit seltsamem Weihnachts-Post auf...
Kommentar: Apples sensationelle Verkaufszahlen ...
iOS 26.2: RC2 ist da – statt finaler Version
FTC will gegen Apples "systematische Verbreitun...
macOS & iOS 26.4 Beta 2
Branchenstimme: RAM-Verknappung killt Produkte ...
iOS 27: Chatbot ersetzt Siri