Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

KI-Modelle von OpenAI und Co. lokal per App auf dem Mac ausführen

Wer künstliche Intelligenz einsetzt, muss oftmals Abstriche in puncto Datenschutz machen. Eine Ausnahme stellt zwar Apple Intelligence dar, die Tools sind aber nur neueren Geräten vorbehalten und machen in der Praxis oftmals einen eher unausgegorenen Eindruck. Manche Fragen leitet Apple zwar auf Wunsch an ChatGPT weiter und verspricht, dass OpenAI nur begrenzte Informationen erhält, allerdings ist die Nutzung dieser Funktion eingeschränkt. Als Alternative lassen sich manche LLMs herunterladen und lokal auf dem Rechner nutzen. Eine Option stellt die App Jan dar: Die Installation ist denkbar einfach und die Aufmachung erinnert an ChatGPT.


Open Source, Fokus auf Datenschutz
Die fertigen Installationsdateien von Jan lassen sich auf der offiziellen Website sowie auf Github herunterladen. Neben einer Version für macOS existieren Varianten für Windows und Linux. Die App setzt auf die Verwendung von LLMs, die entsprechenden .gguf-Dateien können einfach per Drag & Drop hinzugefügt werden. Das trifft auch auf gpt-oss von OpenAI zu. Ferner ermöglicht die App die Einbindung von Modellen wie Mistral, LLaMA und Gemma. Über API-Keys stehen zudem unter anderem GPT-4o und die Modelle von Perplexity zur Verfügung. Intel-Macs sind allerdings nur eingeschränkt dazu in der Lage, mit den Sprachmodellen umzugehen: Ein Mac mit Apple Silicon und idealerweise mindestens 16 Gigabyte Arbeitsspeicher sorgt für einen wesentlich flotteren Workflow. Die Vorzüge von Jan liegen in der einfachen Bedienbarkeit und der Transparenz: Es handelt sich um ein quelloffenes Projekt, das Interaktionen vollständig lokal auf dem Gerät verarbeitet.

Einfache Bedienung der kostenfreien App
Die Nutzung von Jan ist kostenfrei: Es fallen weder Gebühren noch Kosten für (versteckte) Abonnements an. Nach dem Download des gewünschten LLMs trumpft die App mit einer schlicht gehaltenen Benutzeroberfläche auf: Eine Seitenleiste mit einigen Menüpunkten sowie ein Chatfenster ermöglichen die schnelle Interaktion mit der gewählten KI.

Quelle: Jan

Extensions lassen sich ebenfalls hinzufügen. Das hinter Jan stehende Startup Menlo hat sich der Forschung und Entwicklung von KI und Robotik verschrieben und hat seinen Sitz in Singapur.

Kommentare

ruphi
ruphi13.08.25 13:42
Aber ist die Performance auf einer nicht exorbitant teuren Mac-Konfiguration auch brauchbar bei den komplexen Modellen (wie z.B. GPT-4o)?

Um die Frage einigermaßen objektiv beantwortbar zu machen, hier meine Begriffsdefinitionen (in etwa):
Mit brauchbar meine ich, dass man bei einem durchschnittlichen Prompt nicht länger als 15 sek auf die Antwort warten muss.
Ich spreche von Macs, die performancemäßig nicht über einem M4 Pro mit 24 GB Speicher (2400€ UVP) liegen.

Interessieren würde mich allerdings auch, wie lange man bei der o.g. Minimalausstattung (M1, 16 GB) auf die Beantwortung eines Prompts warten muss.
0
Huba13.08.25 14:14
Kommt drauf an, wie leidensfähig du bist. Ich habe auf meinem MacPro 6core 48GB von 2012 Ollama installiert und kann zusammen mit DEVONthink 4.0 lokal auf dem Rechner „mit meinen Dokumenten in der Datenbank chatten“ (um es salopp auszudrücken). Also zusammenfassen, zusammenführen etc.
Das geht, es ist aber langsam. Modernere Rechner sind da klar im Vorteil. Viel RAM hilft viel… Es ist natürlich auch die Frage, wie gross das Modell ist, welches man einbinden möchte.
0
sapajou13.08.25 14:56
Die Geschwindigkeit hängt bei den ARM-Macs nicht vom RAM ab, sondern von den GPU-Cores. Da das benutzte Modell ins RAM passen muss, wird die Antwortqualität bei 16GB geringer sein. Frage ist also eher, welches Modell gibt bei Einstiegskonfigurationen brauchbare Antworten.
-3
MLOS13.08.25 15:02
Ich hatte vorgestern ein das gpt-oss:20b Modell am Laufen gehabt (weiß gerade nicht mehr, welcher Quantisierungsgrad oder ob es da überhaupt eine Auswahl gab). Die Antwortzeit auf einem Mac mini M2 Pro (nicht den hochgezüchteten M2 Pro) wäre mir für den produktiven Einsatz zu langsam. Aber nach einer Minute kam da schon ordentlich Output raus. Der nächste Mac wird definitiv mit einem stärkeren Chip gekauft und wesentlich mehr Unified Memory.
+2
Nebula
Nebula13.08.25 15:23
Wäre LM Studio nicht die bessere Wahl? Das unterstützt neben GGUF auch MLX. Das Format stammt von Apple und soll auf Apple Silicon besser performen. Außerdem unterstützt es MCP, womit KI überhaupt erst wirklich interessant wird als Produktivitätstool. Mit MCP kann KI lokale Apps wie Blender oder Dienste wie Asana bedienen. Mich wundert, das Apple nicht auf den Standard aufspringt oder zumindest eine Brücke für App Intents anbietet.
»Wir waren schon immer schamlos darin, großartige Ideen zu stehlen.« – Steve Jobs
+2
frankh13.08.25 15:28
ruphi
Aber ist die Performance auf einer nicht exorbitant teuren Mac-Konfiguration auch brauchbar bei den komplexen Modellen (wie z.B. GPT-4o)?
Du kannst fast alle LLMs über die API ansprechen, mit API-Key, den man bekommt, wenn man einen bezahlten OpenAI-Account hat. Die laufen dann bei z.B. OpenAI und Dein Mac ist nur Frontend.
Oder
+1
ruphi
ruphi13.08.25 15:41
MLOS
Ich hatte vorgestern ein das gpt-oss:20b Modell am Laufen gehabt (weiß gerade nicht mehr, welcher Quantisierungsgrad oder ob es da überhaupt eine Auswahl gab). Die Antwortzeit auf einem Mac mini M2 Pro (nicht den hochgezüchteten M2 Pro) wäre mir für den produktiven Einsatz zu langsam. Aber nach einer Minute kam da schon ordentlich Output raus. Der nächste Mac wird definitiv mit einem stärkeren Chip gekauft und wesentlich mehr Unified Memory.
Wie viel RAM hast du denn im Mac mini M2 Pro?

frankh
Oder
Besten Dank
0
MLOS13.08.25 18:55
ruphi

Ich habe den mit 16 GB RAM.
0
ssb
ssb13.08.25 20:23
Also ich habe auch ollama laufen und habe mal mit dem einen oder anderen quantisierten 7B-Modell gespielt. Zuletzt mit Teuken, da dies aus Europa kommt und Open Source ist. Auf einem M4 Air mit 24 GB Ram ist die Performanz ausreichend bis flott - je nach Modell. Mit einem kleinen llama3.2 ist es eigentlich recht flott - wenn auch die Antworten wegen des kleinen Modells (3B) nicht so toll sind. Aber über sprachliche Ungereimtheiten kann ich hinweg sehen, es kommt ja auch die Inhalte an. Ich wollte aber noch intensiver Modelle probieren, die mit Programmiersprachen besser zurecht kommen.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.