Benchmarks lokale LLM in LM Studio

Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Forum>Hardware>Benchmarks lokale LLM in LM Studio

Megaseppl09.01.2618:35

Moin,

ich bin am Überlegen, mir einen Mac zu holen, der nichts weiter tut als ein LLM lim LAN aufen zu lassen (für diverse Automatisierungsaufgaben).

Da ich online zu wenig dazu finden konnte, habe ich eine Bitte an Euch:
Hat jemand von euch einen Mac mini m4 Pro oder einen Mac Studio M4 Max mit mindestens 32 GB und könnte einen Performancetest machen?
Da LLMs neben der GPU auch stark mit RAM-Geschwindigkeit skalieren, würde mich vor allem interessieren, wie der M4 Pro im Vergleich zum M4 Max (oder zu meinem M1 Max) abschneidet.

Falls Ihr Lust habt: Die Installation ist recht leicht.
- Installiert die aktuelle Version vom
- Ladet im LM Studio das Modell qwen/qwen3-vl-30b
- Startet das Modell und gebt folgenden Prompt in das Textfeld:

Schreibe mir ausführliche Fakten zu der Webseite mactechnews.de. Mindestens 3000 Zeichen.

Könnt Ihr mir die Geschwindigkeit hier als Antwort posten?
Mich interessiert folgender Wert unter der Antwort: z.B. "43.86 tok/sec • 3269 tokens • 3.47s to first token"
und natürlich die genauen Spezifikationen eures Macs (Prozessor, Anzahl Kerne/GPUs und RAM)

Gerne auch mit anderen M-Macs.
Mindestens 24GB RAM (möglichst 20GB frei) muss er allerdings haben, sonst läuft das Modell nicht.

Ich werde hier auch bald eine Anleitung posten, wie man mit Hilfe von Apples Shortcut und LM Studio komplett lokal seine Dateien via Rechtsklick im Finder beschreiben (indizierbar im Finder-Kommentar) und automatisiert umbenennen kann. Für Screenshots, gescannte PDFs oder Verbesserung der Datei-Archivierung kann das vielleicht auch für euch interessant sein. Und anders als die meisten Online-Tutorials die ich dazu fand, geht das ganze ohne ChatGPT/Cloud und ist richtig gut.

+10

Kommentare

sioh09.01.2619:49

Zwar nicht via LM Studio sondern Open WebUI, aber:

Response Token/s: 48,04
Total Tokens: 6688
Duration: 2m 24s

MBP Pro 16" mit M4 Pro und 48GB RAM

teletower10.01.2600:28

Moin.

LM Studio & llm qwen3-vl-30b-a3b-instruct
• 95.38 tok/sec
• 2818 tokens
• 0.29s to first token

MBP Pro 16" mit M4 Max und 64GB RAM

Das hat mich jetzt aber auch inspiriert.

B_Babb10.01.2606:11

Gwen3 VL 30b
LM studio 0.3.37

85.73 Tok/Sek
3032 Tokens
1.14s bis zum ersten Token

MBP 14 M4Max 128GB

Jörg H.10.01.2608:24

Qwen3VL 30B A3B Instruct

58.87 tok/sec
2854 tokens
0.43s to first token

M1 Ultra 128GB

warp1010.01.2610:47

Gwen3 VL 30b
LM studio 0.3.37

60,69 Tok/Sek
3956 Tokens
2.51s bis zum ersten Token

M2 Ultra 64GB

michimaier10.01.2611:55

Schau mal in dem Kanal vorbei, da bekommst du viele Infos die du für sowas benötigst
https://www.youtube.com/@AZisk

Meine Erfahrung zu Qwen und den anderen lokalen LLMs, ab 32GB funktionieren die auch auf einem M1 Max ganz ok - die Frage ist halt was du machen willst, meine Context Länge ist recht gross, insofern komm ich mit den lokalen LLMs leider nicht voran und muss auf Claude ausweichen ( Gemini als Notlösung )

EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.

JeDI10.01.2614:30

Das fand ich zu dem Thema ganz interessant:

bjbo10.01.2615:09

michimaier

...
EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.

Muss man alles abwägen. Ich habe hier einen Mac Studio mit M1 Max und 32GB RAM laufen, gebraucht für 800 Euro gekauft um all das mal auszuprobieren. Wichtig war hier der Punkt Privatsphäre, also lokale LLMs.

Sicher ist das Teil nicht so schnell, wie die M4 Max oder M3 Ultra aus dem Heise-Video, aber für die Zwecke, für die ich das System nutze, als Assistent beim Entwickeln von Software, läuft das wirklich eindrucksvoll gut mit den verfügbaren Modellen. Vor allem Devstral-2 Small (das große läuft natürlich nicht mit 32GB RAM) macht eine wirklich gute Figur bisher. Ich habe mittlerweile meine Entwicklungsarbeit hauptsächlich auf den Rechner verlagert. Also ist es nicht zwangsläufig eine einseitige Investition. Ursprünglich dachte ich an einen Mac mini mit M4 Pro, Es ist dann aber doch ein gebrauchter geworden. Aber das Mac Studio hat mich irgendwie abgeholt, überlege auf ein neues umzusteigen mit einem M5 Max, wenn es den irgendwann gibt.

Also als Einstieg in das Ganze, kann ich ein gebrauchtes Mac Studio empfehlen.
Hier die Benchmarks:
45.92 Tok/Sek
2490 Tokens
0.85s bis zum ersten Token
Edit: LM Studio Version 0.3.36 mit Qwen3 VL 30b a3b

Megaseppl11.01.2613:49

Moin! Danke euch allen erstmal für Eure Antworten!

Ich habe schon befürchtet, dass der Unterschied zwischen M4 Pro und M4 Max größer ist. Dass der aber so groß ist und der Unterschied zwischen M1 Max und M4 Pro so gering, das überrascht mich dann doch.

Sinn macht es für mich am ehesten hier auf einen Mac Studio mit M4 Max zu gehen. Ursprünglich war eher ein Mac Mini der Plan.
Gerne würde ich natürlich auf den M5 Max warten, zudem ich es eigentlich auch nicht so eilig habe - allerdings befürchte ich, dass Apple hier beim RAM-Upgrade dann nochmal so richtig die Preise erhöhen könnte. Im Moment gibt es den Mac Studio mit M4 Max, 64 GB RAM für etwas über 3000 Euro.

sioh

EDIT: ich hab mir eine ähnliche Frage gestellt, ich finde Kostentechnisch macht eine lokale LLM keinen Sinn.
Einen Mac für über 2000€ (vermutlich über 4000€) zuzulegen - da kann ich viele Monate Abos von zahlen. Ist aber nur meine Meinung.

Meine Abos würde ich weiterhin nutzen, aber nicht um Dateien hochzuladen wie Arztberichte, Briefe, Rechnungen etc.
Letztlich geht es mir allerdings auch, so ehrlich muss ich auch mir selbst gegenüber sein, um Spaß. Ich finde die Möglichkeiten, die einem lokale LLMs mittlerweile bieten, einfach großartig! Zudem nutze ich das Know-How, das ich dadurch privat erlerne aber auch beruflich. Das geht bei mir eh immer Hand in Hand. Und gerade für Firmen bis hin zu KMU, kann so eine kleine reine OnPrem-Lösung absolut Sinn machen.

JeDI

Das fand ich zu dem Thema ganz interessant:

Den Film kenne ich natürlich. Zeigt auch ziemlich klar, dass ein Mac hier in einer bestimmten Größenordnung absolut ideal ist.
Was ich mich nur frage ist, warum er für seine Bild-Model-Tests nicht einfach Draw Things verwendet hat. Finde ich weit angenehmer in der Nutzung als Comfy UI auf dem Mac und läuft auch mit Flux.

ssb12.01.2610:12

Wenn dir hohe Leistung mit großen LLMs wichtig ist, kannst du dir auch mal AI-Cluster mit Exo (OpenSource) anschauen. Der Hardwareaufwand ist natürlich höher (mehrere Mac Mini oder Mac Studio mit richtig viel RAM mit RMA via TB5), aber das soll eine potente Lösung für größere Modelle sein.

Megaseppl12.01.2610:28

ssb

Das wäre bei mir definitiv overkill.
Und selbst bei den Änderungen durch Apple bei der Thunderbolt-Kommunikation (direkt statt über TCP/IP) skaliert es nicht ansatzweise so gut als dass ich das aktuell nutzen wollen würde. Zudem die Einrichtung und Betrieb laut diverser Tester auch nicht reibungslos läuft in den Beta-Versionen. Ich glaube aktuell macht es mehr Sinn für mehr Performance in Richtung Mx Ultra zu gehen.

Dayzd12.01.2622:12

MBP14" M4 Max 48 GB unter Sequoia (15.7.3)
LM Studio 0.3.37

Model : QWEN3-VL-30B

84.31 tok/sec
3435 tokens
2.77s to first token

Moranai13.01.2608:00

Auch wenn ich kein Budget für eine lokale KI-Maschine übrig habe, finde ich es spannend hier mitzulesen und bin erstaunt, wie groß der Unterschiedd zwischen den verschiedenen M-CPU Generationen ist. Mit den neuen KI-Beschleunigern im M5 dürfte der Sprung nochmal deutlich nach oben gehen. Wäre cool wenn jemand sofern verfügbar sein Ergebnis mit einem solchen posten könnte. Und sobald M5 Pro & Max & Ultra da sind wird es nochmal spannend. Ich fand (für den täglichen Bedarf) den Sprung vom M1 zum M4 (jeweils Basisversion) schon krass spürbar.

Huba13.01.2610:54

Zum Thema Performance: Ich habe diesen Test mal mit einem ehrwürdigen MacPro5.1 gemacht (3,33 GHz 6-Core Intel Xeon, 48GB RAM). Das funktioniert natürlich nicht mit LM Studio, ich habe stattdessen Ollama v0.135 mit qwen3-vl:30b genutzt.

Zwei Durchgänge:
1. Thought for 2858.8 seconds, die Antwort selbst dauerte ca. 39 min und produzierte 1.129 Wörter
2. Thought for 637.3 seconds, die Antwort selbst dauerte ca. 1 Stunde und produzierte 1.175 Wörter

Die genaueren Benchmarks (Response token/s, total tokens, duration) wollte mir Ollama auch auf Nachfrage nicht nennen. Ich konnte aber jede einzelne Silbe per Handschlag begrüssen.
Die Ergebnisse haben sich signifikant bei den Fakten widersprochen, das will ich aber nicht weiter kommentieren.
Es ist natürlich absurd, ein LLM lokal auf einem ollen MacPro laufen zu lassen -- aber es geht. Und es zeigt sehr eindrucksvoll, wie die Entwicklung in den letzten 15 Jahren vorangegangen ist!

Megaseppl13.01.2612:04

Huba

Es ist natürlich absurd, ein LLM lokal auf einem ollen MacPro laufen zu lassen -- aber es geht. Und es zeigt sehr eindrucksvoll, wie die Entwicklung in den letzten 15 Jahren vorangegangen ist!

Oh Gott! Das klingts ja gruselig!
Worauf lief das LLM denn? Auf der CPU oder auf deiner Grafikkarte?

ssb13.01.2613:33

Megaseppl

Natürlich sind sowohl RMA via TB5 (wurde mit macOS 26.2 eingeführt) wie auch exo neu und lezteres noch nicht ausgereift. Aber es zeigt, in welche Richtung es geht. Spannend find ich durchaus, dass bei größeren Modellen (und das waren Setups mit in Summe ±1 TB Unified Memory) sich einzelne Schritte/Phasen auf die Nodes verteilen ließen, so dass der 1. Mac schon an Token 3 arbeitet, während der 4. gerade Token 1 auswirft (ist natürlich massiv vereinfacht, aber in diese Richtung geht es). Mit RMA hat man da deutlich geringere Latenzen (vergleichbar mit InfiniBand), weil ein Node auf den Speicher der anderen Nodes zugreifen kann.

Aber ja - overkill trifft es gut, zumal da wirklich große Modelle genutzt wurden. Aber viele sprechen davon, dass eine solche Infrastruktur durchaus eine Konkurrenz zu NVidia-Lösungen darstellt und das teilweise zu einem günstigeren Anschaffungspreis (und solche Mac Studios mit viel RAM sind wirklich nicht günstig).

Mir persönlich reicht ein 7B codegemma via Ollama auf meinem Mac, wenn ich mal was zu Software-Enwicklung fragen möchte - für viele andere Themen würde ich KIs eh noch nicht trauen In den Bereichen, die schlecht dokumentiert sind und wo mir auch stackexchange etc. via Suchmaschine kaum hilft, bietet auch eine KI nicht viel, weil ja eben die Dokumente beim Training nicht verfügbar waren.

domtom14.01.2610:09

71.42 tok/sec
1166 tokens
3.94s to first token

LM Studio 0.3.38
openai/gpt-oss-20b

MBP Pro 14" 36GB RAM M3 Max

Megaseppl14.01.2610:35

Dankeschön!

Hier eine aktualisierte Grafik (faulheitshalber diesmal von ChatGPT erstellt)

Marcel_75@work26.02.2609:04

Wir sollten diesen Thread mind. noch bis zum erscheinen der M5 Max / Ultra / … am Leben erhalten für aussagekräftige Vergleiche – das wird spannend.

Megaseppl26.02.2612:43

Marcel_75@work

Wir sollten diesen Thread mind. noch bis zum erscheinen der M5 Max / Ultra / … am Leben erhalten für aussagekräftige Vergleiche – das wird spannend.

Ich bin auch gespannt! Ich hoffe, jemand von euch kauft sich einen M5 Max Studio!

Marcel_75@work24.03.2622:30

Damit der Thread nicht plötzlich geschlossen wird (3 Monate sind wenn ich mich nicht irre das "Limit", es wäre also noch etwas Zeit?) schubse ich den noch mal an …

twix25.03.2600:00

Alex Ziskind testete dieser Tage mal Tiiny AI Pocket Lab . Das Video findet sich hier:

Beste Grüße
Peter

gfhfkgfhfk25.03.2616:03

Marcel_75@work

Wir sollten diesen Thread mind. noch bis zum erscheinen der M5 Max / Ultra / … am Leben erhalten für aussagekräftige Vergleiche – das wird spannend.

nVidias neue DGX Station ist angekündigt. Die gibt es ebenso wie die DGX Spark wieder von einigen Partnern , , . Sie soll preislich günstiger als das Vorgänger Modell sein, und trotzdem noch immer unerschwinglich teuer sein.

Klaus9925.03.2616:47

Tiiny AI Pocket Lab nutzt ja PowerInfer und TurboSparse um einigermaßen performant zu sein mit einem großen Model. Das lässt sich doch auch auf einem Linux PC mit viel RAM nachbauen. Die Anleitung dazu hat mir gerade Gemini geliefert. Jetzt benötige ich nur noch einen PC mit 128GB oder 256GB RAM.

oliver25.03.2617:20

Mac Studio M4 Max (16/40), 64GB RAM
macOS 26.4
LMStudio 0.4.7+4

qwen3-vl-30b

89,11 Tok/ Sec
3251 Token
Time to first Token 1,35 sec
max. Kontextlänge (262144)

„multiple exclamation marks are a sure sign of a diseased mind. -- terry pratchett“

jzy25.03.2622:08

Moin!

MBP M5, 32GB RAM
macOS 26.4
LM Studio 0.4.7 (Build 4)

qwen3-vl-30b

45,71 tok/sec
2765 tokens
Time to first Token 0,79s

Huba08.04.2622:02

Kann vielleicht mal jemand mit einem Macbook Neo diesen Test machen? Es würde mich doch interessieren, wieweit man mit 8GB RAM kommt.

Marcel_75@work28.05.2617:18

Ich schubse den Thread auch noch mal an zur Sicherheit …

Kommentieren

Sie müssen sich einloggen, um sich an einer Diskussion beteiligen zu können.

Wildes Gerücht: Das "Spatial iPhone" mit hologr...

Test Grell OAE2

iOS/macOS 26.5 bringen mehr als 50 sicherheitsr...

Kampfpreis beim iPhone 18 Pro und 18 Pro Max?

Ternus wird Apple-CEO

Logoist 6 erschienen

Apple und Chip Binning – das "große Geschäft mi...

Das MacBook Neo zerlegt – Überraschung beim inn...