Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Sprache zu Text: Wie gut funktioniert Apples neuer SpeechAnalyzer?

Apples Sprache-zu-Text-Funktionen wurden in den vergangenen Jahren stetig weiterentwickelt, waren aber Apples eigenen Apps vorbehalten. Den Anfang machte eine serverseitige Transkription von Podcasts, dann konnte die Notizen-App einen aufgezeichneten Vortrag in Geschriebenes umwandeln. Aktuell verschriftlichen sowohl die Nachrichten- als auch die Sprachmemos-Apps Gesprochenes auf iPhones, iPads und Macs. In einer WWDC-Session kündigte Apple an, dass zukünftig alle App-Entwickler auf die systemeigenen Fähigkeiten zur Spracherkennung zugreifen können. Dafür kommt eine neue API namens SpeechAnalyzer zum Einsatz.


Im frei verfügbaren Video führen Donovan Voss und Shantini Vyas anhand von exemplarischem Swift-Code vor, wie sie die API in ihre Apps integrieren. Das zugrunde liegende große Sprachmodell (LLM) ist Teil des Betriebssystems; die Umwandlung von Sprache in Text erfolgt also direkt auf dem jeweiligen Gerät. Bisher sind App-Entwickler darauf angewiesen, ein Drittanbieter-LLM zu verwenden. Beliebt ist dafür das von OpenAI als Open-Source-Modell veröffentlichte Whisper. Deren Nutzung kostet Platz und Zeit: Eine App mit integriertem LLM benötigt mehrere Gigabyte an Speicherplatz – und je nach Leistungsfähigkeit des Geräts dauert ein Transkriptionsdurchlauf einige Zeit.

Apples Entwickler haben sich ambitionierte Ziele für die Verschriftlichung von Wortbeiträgen gesetzt. (Quelle: Apple)

Akkurate und schnelle Transkription
Für MacStories hat John Voorhees den Vergleich gewagt und die erste Entwickler-Beta von macOS 26 (Tahoe) installiert. Das Kommandozeilenprogramm zur Transkription mit Apples SpeechAnalyzer namens Yap steuerte sein Sohn bei. Für den Vergleich setzte er die Apps VidCap sowie MacWhisper ein; bei letzterem führte er dieselbe Transkription mit zwei unterschiedlichen Whispler-LLMs durch: Large V3 Turbo sowie Large V2. Die Qualität des Resultats war in seinen Augen bei allen Varianten vergleichbar. Dafür war Apples SpeechAnalyzer deutlich früher fertig und benötigte auf der gleichen Hardware lediglich 55 Prozent der Zeit von MacWhisper mit dem Large-V3-Turbo-Modell. Die anderen Transkriptionen verliefen noch langsamer.

Programmier-Workshop im Video
Die zwanzigminütige WWDC-Session erklärt, wie die API anzusprechen ist und die dazugehörigen Modelle funktionieren. In mehreren Beispielen führen die Apple-Entwickler vor, wie man SpeechAnalyzer in eigene Projekte integriert und Transkriptionen via Apple Intelligence aufarbeitet, etwa automatisch eine Zusammenfassung erstellt.

Kommentare

Old Archibald Yates18.06.25 18:49
"Apples Sprache-zu-Text-Funktionen wurden in den vergangenen Jahren stetig weiterentwickelt, waren aber Apples eigenen Apps vorbehalten."

Und der englischen Sprache …
+2

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.