Siri trotz lauter Umgebungsgeräusche: Wie Apple technische Herausforderungen meistert

Eine funktionierende Spracherkennung auf dem HomePod zu realisieren, ist technisch erheblich schwieriger als auf iPhone oder iPad. Ein Grund dafür ist die Tatsache, dass der Sprecher mit dem smarten Lautsprecher in aller Regel aus einiger Entfernung kommuniziert. Darüber hinaus können Geräusche, Musik und Gespräche sowie Echoeffekte und Nachhall die Sprachbefehle an den HomePod überlagern. Um diesen Herausforderungen zu begegnen, setzt Apple eine ganz Reihe ausgefeilter Signalverarbeitungsprozesse und digitaler Filter ein. Die technischen Einzelheiten erklärt das Unternehmen jetzt in einem Blogpost.

A8-Prozessor "lauscht" permanent
Der HomePod verfügt über sechs Mikrofone und einen A8-Prozessor, der die Verarbeitung der Audiosignale übernimmt. Dieser "lauscht" permanent und passt seine digitalen Mehrkanalfilter ständig an die Geräuschkulisse des Raums und die Bewegungen der Sprecher an. Dabei lernt das System, erwünschte von unerwünschten Signalen zu unterscheiden und letztere so gut wie möglich auszublenden.

Blockdiagramm der Signalverarbeitungskette auf dem HomePod

Lautsprecher behindern Mikrofone
Eine der größten Herausforderungen der Spracherkennung auf dem HomePod ist die Nähe der Lautsprecher zu den Mikrofonen. Für diese kann auf dem Gerät abgespielte Musik bis zu viermal lauter sein als die Befehle des Sprechers. Dem Problem begegnet Apple unter anderem mit einer Mehrkanal-Echo-Ausblendung ("Multichannel Echo Cancellation"). Darüber hinaus werden Techniken wie zum Beispiel "Mask-Based Echo Suppression" (Referenzbasierte Echo-Unterdrückung), "Mask-Based Noise Reduction" (Referenzbasierte Geräuschreduzierung) und Nachhallentfernung eingesetzt.

Deep Learning im Hintergrund
Diese und weitere digitale Techniken sind eng mit dem "Deep Learning" in einem neuronalen Netz auf Apples Servern verknüpft. Die Künstliche Intelligenz (KI) lernt ständig hinzu und optimiert dadurch die digitalen Signalverarbeitungen und Filtersysteme des HomePod. Im Rahmen der Entwicklung testete und trainierte Apple die Spracherkennung in groß angelegten Versuchen in wechselnden Umgebungen und mit vielfältigen akustischen Szenerien. Dabei wurde nicht nur großer Wert auf die Präzision der Spracherkennung gelegt, sondern auch auf eine gute Performance des HomePod sowie der im Hintergrund arbeitenden Künstlichen Intelligenz.

Audio-Beispiele und Literaturhinweise
Der Blogpost enthält zahlreiche mathematische Erläuterungen, Tabellen und einige Audio-Beispiele. Darauf im Einzelnen einzugehen, würde den Rahmen dieses Artikels sprengen. Wer sich für weiterführende Informationen zu den technischen Grundlagen interessiert, findet am Ende von Apple Blogposts eine umfangreiche Liste mit Literaturhinweisen.

Kommentare

Assassin04.12.18 14:09
Hmm. Wenn der HomePod doch weiß, welche Musik gerade abgespielt wird, sollte es dann nicht ein leichtes sein, dass auszublenden ?
0
Hühnchen
Hühnchen04.12.18 14:17
Mhmm. Ich hatte mal Wals Entschuldigung dafür, dass Siri viel weniger versteht als Alexa gehört, dass es ja mit so einem Lautsprecher und mehreren Mikrofonen viel leichter sei, als mit mit so einen Smartphone. 🤔. Man kann sich seine Schwächen aber auch immer mit solchen Lobeshymnen schön reden. „Technische Herausvorderung meistern“ tssss
-1
Pixelmeister04.12.18 14:26
Die Industrie kann mir soviel erzählen, wie sie will – mir kommen keine dauerlauschenden Geräte ins Haus. Weder Alexa noch "Hey, Siri". Bei den iOS-Geräten drücke ich weiterhin die Home-Taste lang, um Siri zu aktivieren und die zusätzliche Remote-Control mit Touch und Mikro für meinen Samsung TV habe ich weder ausgepackt noch mit Batterien bestückt.

Und Apple mag ja noch so toll an allen möglichen Sprach-Verständigungs-Sachen herumforschen aber solange Siri so dumm bleibt, wie sie ist, nützt das alles nichts. Erst gestern wieder: Ich (nach Longpress): "Ruf Anya an", Siri:" Welche Nummer von Tanja – Privat oder Büro?", ich: "Keine", Siri: "Keine kenne ich nicht!". Von einer KI erwarte ich, dass sie so einfache Antworten versteht, wenn ich ihr schon nicht sagen kann, dass sie den Namen (auch nach dem 3. Mal) falsch verstanden hat. Ich will meine Sätze und Aussprache nicht der KI anpassen – dann mache ich das lieber per Keyboard/Touch.
-1
ApfelHandy4
ApfelHandy404.12.18 14:27
Hühnchen
Mhmm. Ich hatte mal Wals Entschuldigung dafür, dass Siri viel weniger versteht als Alexa gehört, dass es ja mit so einem Lautsprecher und mehreren Mikrofonen viel leichter sei, als mit mit so einen Smartphone. 🤔. Man kann sich seine Schwächen aber auch immer mit solchen Lobeshymnen schön reden. „Technische Herausvorderung meistern“ tssss

"Hören" und "Verstehen" sind allerdings zwei paar Stiefel. Und "Hören" kann mich Siri auf dem HomePod (speziell bei lauter Wiedergabe) deutlich besser als jeder bisherige Echo-Speaker (ich habe bis auf den Echo Spot alle getestet).

Was das "Verstehen" angeht: auch hier bin ich bei Siri. HomeKit-Steuerung, Apple Music-Bedienung, Kalender, Nachrichten, Notizen, Anrufe und Erinnerungen funktionieren bei mir tadellos und auch in natürlicher Sprache. Bei Alexa muss oft zuerst durch ein Schlagwort ein Skill aktiviert werden.
Mag sein, dass mir der Google-Assi sagen kann, wie viele Sandkörner im Schnitt am Hintern eines indischen Elefanten kleben, für die alltäglichen, wirklich hilfreichen Commands bin ich mit Siri sehr zufrieden.

So, und jetzt röstet mich!
+5
Mecki
Mecki04.12.18 14:51
Assassin
Hmm. Wenn der HomePod doch weiß, welche Musik gerade abgespielt wird, sollte es dann nicht ein leichtes sein, dass auszublenden ?
War auch mein Gedanke. "Online learning algorithm"? Der Lautsprecher vor Ort weiß doch was er gerade abspielt. Das Signal direkt vor Ort rauszufiltern, stellt auch ohne KI einen Signalprozessor doch vor keine unlösbare Aufgabe, so etwas haben Geräte auch schon vor 20 Jahre gekonnt, so etwas macht doch jedes Telefon, wenn man die Freisprecheinrichtung einschaltet. Natürlich ist das nicht perfekt aufgrund von Reflexionen im Raum, Echoeffekten, usw. Aber es muss ja gar nicht perfekt sein. Wenn man nur die Musik um 40 bis 60 dB(A) abschwächen kann, dann ist das nur noch wie wenn man Siri unterwegs in einer Großstadt verwendet - da hat man auch andere Menschen, Verkehr und Windgeräusche mit dabei und dennoch versteht Siri was man sagt, weil es zwischen Stimmen und Hintergrund alleine am Pegel unterscheiden kann.
-2
holk10004.12.18 14:54
Na ja, die Anzahl der eindeutigen Formulierungen, die Siri nicht versteht ist immer noch sehr hoch. Bei der akustischen Verstöndigng ist der HomePod allen anderen meilenweit voraus. Und beim Datenschutz Apple mit Google und Amazon gleichzusetzen spricht für große Unkenntnis. Datenverkauf ist nicht das Geschäftsmodell von Apple!
+1
holk10004.12.18 14:56
Mecki
Assassin
Hmm. Wenn der HomePod doch weiß, welche Musik gerade abgespielt wird, sollte es dann nicht ein leichtes sein, dass auszublenden ?
War auch mein Gedanke. "Online learning algorithm"? Der Lautsprecher vor Ort weiß doch was er gerade abspielt. Das Signal direkt vor Ort rauszufiltern, stellt auch ohne KI einen Signalprozessor doch vor keine unlösbare Aufgabe, so etwas haben Geräte auch schon vor 20 Jahre gekonnt, so etwas macht doch jedes Telefon, wenn man die Freisprecheinrichtung einschaltet. Natürlich ist das nicht perfekt aufgrund von Reflexionen im Raum, Echoeffekten, usw. Aber es muss ja gar nicht perfekt sein. Wenn man nur die Musik um 40 bis 60 dB(A) abschwächen kann, dann ist das nur noch wie wenn man Siri unterwegs in einer Großstadt verwendet - da hat man auch andere Menschen, Verkehr und Windgeräusche mit dabei und dennoch versteht Siri was man sagt, weil es zwischen Stimmen und Hintergrund alleine am Pegel unterscheiden kann.
Wenn es so einfach wäre, warum bekommen es die andere dann nicht ebenso gut hin?
0
Mecki
Mecki04.12.18 15:22
holk100
Wenn es so einfach wäre, warum bekommen es die andere dann nicht ebenso gut hin?
Wo ist denn bitte der objektive Beleg dafür, dass es die anderen nicht so gut hinbekommen? Und wenn sie es nicht so gut hinbekommen, wer sagt denn, dass die anderen es nicht auch genauso online mit KI versuchen und das überhaupt der Grund für ihre Probleme ist, weil halt deren KI nicht so gut ist und sie es vielleicht ohne KI sogar besser hinbekommen hätten. Ich habe auch nicht gesagt, dass es falsch oder ein dumme Idee ist hier mit KI zu arbeiten, aber auch die KI tut sich leichter, wenn sie nur noch Hintergrundgeräusche filtern muss, die 40 bis 60 dB (A) leiser sind.
0
asdakloek
asdakloek05.12.18 03:21
Pixelmeister
"Ruf Anya an", Siri:" Welche Nummer von Tanja – Privat oder Büro?"

Du (nach Longpress): „Lerne die Aussprache von Anya“
+1
pogo3
pogo305.12.18 10:26
Dieser "lauscht" permanent und passt seine digitalen Mehrkanalfilter ständig an die Geräuschkulisse des Raums und die Bewegungen der Sprecher an.
Ja, genau aus diesem Grunde steht hier auch kein HomePod, und wird es nicht, außer es wird mir bestätigt dass dieses komplett eliminiert werden kann. Ist "Siri aus" wirklich "Siri aus" ?

By-the-way: Wer ist den eigentlich der oder die KI, von dem andauernd die Rede ist ?
Von einer KI erwarte ich, dass sie so einfache Antworten versteht, wenn ich ihr schon nicht sagen kann, dass sie den Namen (auch nach dem 3. Mal) falsch verstanden hat.
Also, man weiß ja nicht wer der oder die KI überhaupt ist. Und wer weiß, was du für einen Kauderwelsch redest. Stell dir mal das wäre ein Hund? Dann würde bellen helfen. Probier´s doch mal.
Wann hört es endlich auf zu dauern.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.

OK MacTechNews.de verwendet Cookies unter anderem für personalisierte Inhalte, Seitenanalyse und bei der Auslieferung von Google-Anzeigen. Dies war zwar schon immer so, auf Wunsch der EU muss nun jedoch explizit darauf hingewiesen werden. Durch Nutzung der Website erklären Sie sich damit einverstanden. Weitere Informationen