Beeindruckende Bildanalyse im Live-Video – Apples Erkennungs-KI jetzt im Browser testen


Der KI-Hype, welcher mit der Veröffentlichung von ChatGPT im Herbst 2022 seinen Anfang nahm, ist ungebrochen. In vielen Bereichen stehen generative KIs im Mittelpunkt des öffentlichen Interesses; sie erzeugen Illustrationen, Texte oder Videos auf Geheiß (Prompt) des Anwenders. Analytischen KIs bleibt das Rampenlicht meist verwehrt, dabei arbeiten sie mit beeindruckender Genauigkeit und produzieren deutlich weniger kontroverse Resultate. Sie transkribieren Podcasts und formulieren Bildbeschreibungen – oder analysieren Videofeeds. Apple stellte im Mai eine analytische Video-KI namens FastVLM vor, die Live-Video analysiert. Seit einigen Tagen können Mac-Anwender mit Apple-Silicon-Mac FastVLM zusätzlich im Browser ausprobieren.
Gleichzeitig mit der Veröffentlichung der
Forschungsschrift veröffentlichten Apples KI-Forscher mehrere Versionen des FastLVM-Modells auf
GitHub. Nun, gut vier Monate später, publizierte der Konzern dieselben Modelle auf der KI-fokussierten Programmierplattform Huggingface – und damit einhergehend auch eine
interaktive Browser-Demonstration. Anders als die bisherigen Veröffentlichungen benötigt man für diese keine Programmierkenntnisse, um sie zum Laufen zu bringen – lediglich passende Hardware und einen Chrome-Browser setzt die experimentelle Videoanalyse voraus.
Laufende BildanalyseBeim Aufrufen der Website erlaubt man dieser zunächst den Zugriff auf die Webcam des Macs. Als Nächstes klicken Sie auf „Start Live Captioning“. Falls Sie einen Safari-Browser verwenden, ist das Experiment verfrüht beendet – die interaktive Demo setzt einen auf Chrome basierenden Browser voraus. Das kann auch ein datenschutz-fokussierter Abkömmling wie
Brave sein. Ist diese Voraussetzung erfüllt, lädt die Website das kleinste Sprachmodell mit einer halben Milliarde (0,5 B) Parametern. Dies dauert je nach Internetverbindung und Prozessorleistung unterschiedlich lang; einige Minuten Geduld sollte man aufbringen. Im Anschluss füllt das aktuelle Videobild das Browserfenster, in dem unten rechts in regelmäßigen Abständen eine neue Bildbeschreibung erscheint.
Im Browser erscheint ein Bild der Webcam, zu der alle paar Sekunden eine Beschreibung generiert wird.
Fragen erlaubtIn der unteren linken Ecke erscheint der Prompt; standardmäßig fordert dieser eine allgemeine Bildbeschreibung an. Sie können aus einigen vorformulierten Fragen wählen oder eine eigene Frage stellen. Die Bildbeschreibungen erscheinen erstaunlich schnell, selbst auf einem M1-Mac mini. Apple Silicon ist Voraussetzung, ebenso eine Webcam. Wer ein Continuity-fähiges iPhone besitzt, kann dieses als Bildgeber einbinden. Ein Blick in die Chip-Auslastung zeigt, welche Rechenkerne
FastVLM beansprucht: Es belegt die GPU-Kerne mit Beschlag, aber auch die NPU-Kerne leisten einen Beitrag.
Verwendet man FastVLM im Browser, werden sowohl Grafik– als auch Neuralkerne beansprucht.