Apple M1: Was ist Shared Memory, Unified Memory und dediziertes VRAM?

Die ersten Macs mit Apple-eigenen M1-Prozessoren stehen nun zur Vorbestellung bereit – die Geräte sollen bereits am kommenden Dienstag bei den Kunden eintreffen. Apple wechselte aber nicht nur die CPU gegen eine eigene aus, sondern der gesamte Aufbau der Mac-Plattform wurde umgebaut. Endlich verfügen selbst die Einsteiger-Modelle MacBook Air, MacBook Pro 13" und der Mac mini über eine Grafikhardware, welche auch für Spiele oder aufwändigere Anwendungen taugt. Die zuvor eingesetzten, integrierten Grafiklösungen von Intel waren schnell überfordert – manchmal selbst, wenn viele Fenster auf dem Desktop sichtbar sind.


Auf dem Apple-Event betonten die Präsentatoren mehrfach, dass Apple beim M1 (und auch bei sonstigen Apple-A-Chips) auf eine Unified Memory Architecture setzt. Doch was ist das eigentlich?

Intel Iris: Shared Memory
Die allermeisten, bisherigen Macs verfügen über eine integrierte Grafiklösung von Intel. Nur das MacBook Pro 16", der iMac, der iMac Pro und der Mac Pro bringen Grafikkarten mit dediziertem VRAM mit. Die meistverkauften Modelle, nämlich das MacBook Air und das MacBook Pro 13", müssen ohne dedizierte Grafikkarte auskommen.

Intels Grafikkarten nutzen Shared Memory. Hier wird ein fester Bereich im Hauptspeicher extra für die im Prozessor integrierte Grafikeinheit reserviert – die CPU und die integrierte GPU teilen sich einen Speicherbus. Diese Art und Weise hat diverse Nachteile: Die Aufteilung des Speichers ist fix (bei Intel aktuell 1,5 GB) und nicht veränderbar. Will die GPU auf etwas zugreifen, was im Hauptspeicherbereich der CPU liegt, muss zuerst kopiert werden.

Vorteile einer solchen Architektur sind die geringen Kosten wie auch die recht hohe Energieeffizienz – aber die Performance bleibt hier auf der Strecke.

Dediziertes VRAM / Diskrete Grafikkarte
Die Leistungsspitze stellen momentan Grafikkarten dar, welche über dediziertes VRAM verfügen. Hier handelt es sich meist um sehr schnellen Speicher, welcher bei High-End-Karten Bandbreiten zwischen 1 und 2 TB/s erreicht. Der Vorteil: Nur die GPU nutzt diesen Speicher und muss sich den Zugriff nicht mit der CPU teilen.

Trotz extrem hoher Leistungswerte bringt dieses Vorgehen aber auch Nachteile mit: Meist ist der Stromverbrauch solcher GPUs deutlich höher als bei integrierten Lösungen (bei High-End-Desktop-Karten oftmals mehrere hundert Watt) und der Platzbedarf in Laptops ist größer. Außerdem kann die GPU nicht ohne Umwege auf den normalen Hauptspeicher zugreifen – soll zum Beispiel die GPU genutzt werden, um eine bestimmte Programmfunktion zu beschleunigen, müssen die Daten erst über den (recht langsamen) PCI-Bus ins VRAM und anschließend wieder zurückkopiert werden.

Unified Memory Architecture
Beim Apple M1 (und auch bei den aktuellen Apple-A- und S-Chips) nutzt Apple eine Unified Memory Architecture. Wie bei Shared Memory wird auch hier der normale Arbeitsspeicher für die GPU verwendet – doch deutlich flexibler: Die GPU reserviert sich keinen festen Bestandteil des RAMs, sondern kann auf den gesamten Arbeitsspeicher gemeinsam mit der CPU zugreifen. Somit entfällt das Hin- und Herkopieren der Daten, welches bei dediziertem VRAM oder Shared Memory erforderlich ist.

Apple dokumentiert leider nicht, wie genau der gemeinsame Speicherzugriff der CPU und GPU realisiert ist – die Grafikperformance moderner A-Chips lässt aber vermuten, dass Apple hier tief in die Trickkiste gegriffen hat, um ein derartiges Performanceniveau zu erreichen.


Fazit
Die Unified Memory Architecture räumt mit diversen Nachteilen des Shared-Memory-Modells auf und erlaubt es, dass selbst Laptops wie das MacBook Air über eine durchaus annehmbare Grafikperformance verfügen – und zeitgleich über immens lange Akkulaufzeiten. Ein echter Vorteil ist, dass kein "Ping-Pong-Spiel" zwischen RAM und VRAM durchgeführt werden muss, wenn die CPU und die GPU gemeinsam Daten nutzen. Da aber normaler Arbeitsspeicher langsamer ist als dediziertes VRAM moderner Grafikkarten, können diese Lösungen bei Benchmarks wie zum Beispiel der Füllrate nicht vollständig konkurrieren.

Es wird sehr interessant, welchen Weg Apple für das MacBook Pro 16", den iMac oder Mac Pro verfolgt. Grundsätzlich sind hier zwei Szenarien denkbar: Entweder Apple verwendet hier dediziertes VRAM oder Apple setzt deutlich schnelleren Arbeitsspeicher ein. Letztere Möglichkeit wäre beispielsweise beim Mac Pro denkbar: Da sich dieses Modell an professionelle Anwender richtet, ist ein höherer Preis für die meisten Kunden akzeptabel. Somit könnte Apple hier die Vorteile dedizierter Grafikkarten und der Unified Memory Architecture vereinigen.

Kommentare

MacRS12.11.20 08:44
Ich frage mich, wo die Grenzen der Integration liegen. Ich frage ich mich unabhängig von anderen Faktoren, ob man auch 2TB Hauptspeicher, eine 8TB SSD, hinreichende I/O und eine richtige GPU (die Basis eines kompletten Mac Pro) auf einen SoC quetschen könnte, oder ob das z.B. rein thermisch nicht möglich ist oder produktionstechnisch zu schlechter Ausbeute führt etc.
0
macStefan12.11.20 08:59
MacRS
Ich frage mich, wo die Grenzen der Integration liegen. Ich frage ich mich unabhängig von anderen Faktoren, ob man auch 2TB Hauptspeicher, eine 8TB SSD, hinreichende I/O und eine richtige GPU (die Basis eines kompletten Mac Pro) auf einen SoC quetschen könnte, oder ob das z.B. rein thermisch nicht möglich ist oder produktionstechnisch zu schlechter Ausbeute führt etc.

Also mal unabhängig davon, ob die maximale Größe eines solchen SoCs die 2TB überhaupt physikalisch fasst werden durch ein solches Vorgehen auch die Vorteile wieder aufgefressen. Es hat ja Gründe, warum die Caches innerhalb der eigentlichen Chips meist eher klein gehalten werden, obwohl sie äußerst leistungssteigernd sein können: Man kauft sich mit größeren Caches und längeren Leiterbahnen wieder nur neue Latenzen ein. Genauso dürfte das auch sein, wenn aus wenigen Speicherchips für aktuell maximale 16GB Ram man mal eben wieder 2TB macht.

Was wir bisher gesehen haben war ausschließlich die Energiespar-Serie von Apple Silicon. Man darf gespannt sein, was sie aus ihrer Chip-Technologie herausholen für die Rechner, die direkt an der Steckdose hängen und im Gegensatz zum Mac Mini eine höhere Kühlleistung haben. Auch beim Macbook Pro 16" müssen sie noch mal ordentlich was drauflegen, denn da gibts aktuell 64GB Hauptspeicher und noch mal zusätzlich 8GB HBM als VRam. Da kommt der M1 nicht mit
+3
Dante Anita12.11.20 09:21
Angenommen man hat nur ein Spiel laufen, sonst nichts. Wieviel Speicher würde dann, abgesehen von Big Sur, für die GPU ca. übrig bleiben (von 16 GB RAM)?
0
der Wolfi
der Wolfi12.11.20 09:31
Also ich trau apple zu die nötige Performance für HighEnd-Geräte zu schaffen. Ist es nicht egal wie das dann technisch erreicht wird?
Sie werden nicht so blauäugig sein und einen (i)Mac Pro bringen der nicht ein vielfaches der Einstiegsgeräte leistet. Sollten die üblichen Verdächtigen (Bild- Videobearbeitung) nicht ganz rund laufen, wartet der geneigte Poweruser auf die 2. Generation von M-Prozessor-Maschinen.
Nötige Anpassungen der Software wird relativ schnell erfolgen. Selbst Adobe kann es sich nicht mehr leisten das zu verschlafen.
Wer in der beneidenswerten Situation ist investieren zu müssen und die neue Rechnerarchitektur nicht will, greift zu IntelMaschinen.
Normal is für die Andern
+1
Charlie212.11.20 09:47
Wenn man sich die Specs ansieht, dann hat Apple bereits wesentlich schnelleren RAM verbaut!
0
pünktchen
pünktchen12.11.20 10:18
Welche Specs? Steht irgendwo was für RAM Apple da verbaut und wie die Verbindung zum SOC aussieht?
+1
athlonet12.11.20 10:19
Charlie2
Wenn man sich die Specs ansieht, dann hat Apple bereits wesentlich schnelleren RAM verbaut!

Das glaube ich auch.
Und wenn man sich die Zeichnung ansieht, dann sind CPU, GPU, RAM und auch Cache über eine Fabric miteinander verbunden.
D.h. die GPU kann wohl auch auf den selben Cache wie die CPU zugreifen.
+1
ERNIE12.11.20 10:21
Unified Memory Architecture: Beim Commodore Amiga nannte man das ChipRAM.
+4
Marcel_75@work
Marcel_75@work12.11.20 10:29
ERNIE
Unified Memory Architecture: Beim Commodore Amiga nannte man das ChipRAM.

ChipRAM war aber deutlich langsamer als der 'normale' FastRAM beim AMIGA… 🤓
+1
gfhfkgfhfk12.11.20 10:55
ERNIE
Unified Memory Architecture: Beim Commodore Amiga nannte man das ChipRAM.
Mich erinnert der Aufbau eher an eine SGI mit ihrer Crossbar Switch, dort wurde auch der Hauptspeicher für die Videodaten genutzt und nur die eigentliche Ausgabe wurde über VRAM gepuffert.
MacRS
Ich frage mich, wo die Grenzen der Integration liegen. Ich frage ich mich unabhängig von anderen Faktoren, ob man auch 2TB Hauptspeicher, eine 8TB SSD, hinreichende I/O und eine richtige GPU (die Basis eines kompletten Mac Pro) auf einen SoC quetschen könnte, oder ob das z.B. rein thermisch nicht möglich ist oder produktionstechnisch zu schlechter Ausbeute führt etc.
Aktuell ist die kompakteste Form von 2TB RAM 8×256GB LRDIMMs für Server und diese Module sind zurzeit sehr teuer. Die 128GB LRDIMMs sind noch immer deutlich teurer als die anderen Speichermodule, d.h. mit 16×128GB sind 2TB RAM auch nicht günstig. Erst mit 64GB Modulen kommt man auf Preise pro GB die günstig sind.
0
aMacUser
aMacUser12.11.20 11:02
athlonet
Charlie2
Wenn man sich die Specs ansieht, dann hat Apple bereits wesentlich schnelleren RAM verbaut!

Das glaube ich auch.
Und wenn man sich die Zeichnung ansieht, dann sind CPU, GPU, RAM und auch Cache über eine Fabric miteinander verbunden.
D.h. die GPU kann wohl auch auf den selben Cache wie die CPU zugreifen.
Nur weil alles auf einem Chip liegt, muss es nicht auch alles gleich schnell sein
0
Bananenbieger12.11.20 11:52
Dante Anita
Angenommen man hat nur ein Spiel laufen, sonst nichts. Wieviel Speicher würde dann, abgesehen von Big Sur, für die GPU ca. übrig bleiben (von 16 GB RAM)?
Die GPU nutzt den gleichen Speicher wie die CPU. Daher gibt es dort das "Übrigbleiben" nicht.

Im Konsolenbereich ist es bspw. so, dass eine PlayStation 4 Pro von 8GB RAM 5,5GB für das Spiel verwenden kann (die PS4 Pro mogelt aber ein wenig, weil es noch 1GB zusätzlichen DDR3-RAM für Hintergrundprozesse gibt).
+2
ExMacRabbitPro12.11.20 12:12
Marcel_75@work
ERNIE
Unified Memory Architecture: Beim Commodore Amiga nannte man das ChipRAM.
ChipRAM war aber deutlich langsamer als der 'normale' FastRAM beim AMIGA… 🤓
Ja, weil nämlich die CPU und das Chipset des Amiga abwechselnd darauf zugreifen mussten. Das war 1985 in dem Segment nicht anders machbar.
Erst auf VRAM konnten CPU und GPU gleichzeitig zugreifen. Das war aber erst später verfügbar.
0
AJVienna12.11.20 12:14
Marcel_75@work
ERNIE
Unified Memory Architecture: Beim Commodore Amiga nannte man das ChipRAM.
ChipRAM war aber deutlich langsamer als der 'normale' FastRAM beim AMIGA… 🤓
Ja, das lag daran das die Hälfte der Zugriffszyklen für die CPU war und die andere Hälfte für die Custom Chips (Blitter, Copper). Bei Apples Design gehe ich davon aus, das die Zugriffe beliebig aufteilbar sind. Die GPU wird vermutlich priorisiert.
0
Thyl12.11.20 15:35
die Frage ist hier, ob das Fabric nach außen führbar ist. Dann könnte Apple einfach zu M1 koppeln, und für die leistungsstärkeren Systeme einsetzen.

Wenn das Fabric ein Standard ist, wie z.B. https://de.wikipedia.org/wiki/Heterogeneous_System_Architecture

würde es ihnen auch den Einsatz von (wenn auch speziellen) GPUs von zB AMD gestatten, wenn ich das richtig verstehe. Dann würde es richtig interessant werden, und tatsächlich erscheint es ja schon sinnvoll, statt alles neu zu entwickeln, einen Standard zu verwenden.
0
marcthoma12.11.20 17:36
Naja, wer sagt denn, dass Apple in seine leistungsfähigeren Rechner nicht einfach mehrere M1-Chips einbaut. Wenn man zwei oder vier davon rein macht, hätte man zur Zeit maximal 32 oder 64GB Speicher. Vielleicht ist dann in Zukunft der maximale Speicher an die Anzahl der Kerne gekoppelt. Die Grafikkarten würden dann auch virtuell zusammengeschaltet werden.

Natürlich ist es sehr zeitintensiv wenn dann eine CPU auf den Speicher einer anderen CPU zugreifen will, dafür könnte man aber entsprechende Bussysteme verwenden und vor allem aber die Software optimieren! Insbesondere letzteres hat Apple ja sehr gut im Griff. Jetzt gibt es nämlich auch Sinn, dass sich Apple vor vielen Jahren von OpenGL verabschiedet hat und voll auf Metal setzt.
Apple konnte schon von Anfang an diese Bibliothek auf die kommende Rechner und Multiprozessor-Architektur hin optimieren und ggf. auch Hardwareprobleme durch optimierte Bibliotheken umgehen.

Just my 5 Cents.
0
Michael Lang12.11.20 20:10
würde es ihnen auch den Einsatz von (wenn auch speziellen) GPUs von zB AMD gestatten, wenn ich das richtig verstehe. Dann würde es richtig interessant werden, und tatsächlich erscheint es ja schon sinnvoll, statt alles neu zu entwickeln, einen Standard zu verwenden.

Das ist so eine Sache mit dem Standard. Apple nutzt doch eine eigene Architektur für die GPU (basierend auf PowerVR welche eine eigene auf Tiles basierende Technik nutzt). Die dürfte sehr gut auf Metal zugeschnitten sein.
Daher denke ich, dass Apple auch bei dezidierten GPUs auf eine Eigenentwicklung setzen wird. Da die integrierten Lösungen schon wirklich sehr gut performen, könnte dies auch auf eine eigenständige „große“ Grafikeinheit zutreffen.
AMD müßte eine GPU speziell für Apple entwickeln, die an deren Bussystem/Protokoll angepaßt sein muß. Das kann ich mir schwerlich vorstellen (Kosten!).
Hier muß Apple wohl sein eigenes Süppchen kochen mit den Vor- und Nachteilen.

Es bleibt spannend...
- Das größte Maul und das kleinste Hirn,wohnen meist unter derselben Stirn. - Hermann Oscar Arno Alfred Holz, (1863 - 1929), deutscher Schriftsteller
0
Michael Lang12.11.20 20:30
pünktchen
Welche Specs? Steht irgendwo was für RAM Apple da verbaut und wie die Verbindung zum SOC aussieht?

Ich habe das hier auf CPU-Monkey gefunden. Das ist zwar mit Vorsicht zu genießen, weil nicht offiziell, aber der verwendete Speicher scheint schon mal deutlich schneller als bei Intel zu sein.

- Das größte Maul und das kleinste Hirn,wohnen meist unter derselben Stirn. - Hermann Oscar Arno Alfred Holz, (1863 - 1929), deutscher Schriftsteller
0
Michael Lang12.11.20 20:43
Falsches Bild. Hier nochmal:

- Das größte Maul und das kleinste Hirn,wohnen meist unter derselben Stirn. - Hermann Oscar Arno Alfred Holz, (1863 - 1929), deutscher Schriftsteller
0
gfhfkgfhfk12.11.20 22:11
marcthoma
Naja, wer sagt denn, dass Apple in seine leistungsfähigeren Rechner nicht einfach mehrere M1-Chips einbaut. Wenn man zwei oder vier davon rein macht, hätte man zur Zeit maximal 32 oder 64GB Speicher. Vielleicht ist dann in Zukunft der maximale Speicher an die Anzahl der Kerne gekoppelt. Die Grafikkarten würden dann auch virtuell zusammengeschaltet werden.

Natürlich ist es sehr zeitintensiv wenn dann eine CPU auf den Speicher einer anderen CPU zugreifen will, dafür könnte man aber entsprechende Bussysteme verwenden und vor allem aber die Software optimieren!
Bei der Konkurrenz gab es solche System schon vor Jahrzehnten! Stichwort NUMA-Problematik

Für die Masse an Nutzern haben sich die Systeme nicht durchgesetzt.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.