KI-Test im App Store: Modifiziertes Modell sorgt für (etwas) bessere Suchergebnisse


Wer Apps verkaufen will, benötigt primär eine gute Suchfunktion. Wenn ein Nutzer einen Begriff eingibt, sollte die Ergebnisliste den Nutzerwunsch möglichst treffend umschreiben – unabhängig von der Zielgenauigkeit der Sucheingabe oder der Eigenbeschreibung des Anbieters. Die beste Grundlage dafür sind Nutzerbewertungen und professionelle Rezensionen; diese sind allerdings rar. Apple will diesem Mangel mittels KI-erzeugter Schlüsselwörter entgegenwirken, welche bei der Auswahl der angezeigten Resultate zum Einsatz kommen. Eine
Forschungsarbeit beschreibt das Resultat eines A/B-Tests mit einem neuen Large Language Model.
Offenbar kommt bereits im Normalbetrieb ein Large Language Model (LLM) zur Anwendung, denn die Forscher vergleichen ihr überarbeitetes Modell mit einem "Production"-Modell. Dieses ursprüngliche Modell wurde anhand von Nutzerbewertungen und Nutzerverhalten in Apples App Stores trainiert und erzeugt Schlüsselwörter und Kategorien (Labels) für die Apps. Das neue Modell, welches sie "LLM-Augmented" nennen, nutzt nun diese KI-generierten Labels als zusätzliche Trainingsdaten. Auf diese Weise konnte das neuere LLM die eigenen Label-Zuweisungen auf einen größeren Datensatz fußen lassen als das alte.
Um ein Viertel Prozent verbesserte KonversionNachdem dem "LLM-augmented"-Modell bereits in automatisierten Testroutinen ein leichter Vorsprung attestiert werden konnte, führte Apple einen A/B-Test in den konzerneigenen App Stores durch: Wer im App Store nach einem bestimmten Begriff suchte, bekam in manchen Fällen Unterstützung durch die "Production"-KI, in anderen Fällen von der "LLM-augmented"-KI. Die Beobachtung: Die Suchergebnisse, welche mit der optimierten KI entstanden, wiesen eine um 0,24 Prozent erhöhte Wahrscheinlichkeit auf, dass die Suche zu mindestens einem App-Download führte.
Statistisch signifikant – gut für Start-ups?Ein knappes Viertelprozent klinge nicht sonderlich beeindruckend, geben die Forscher zu, doch stelle dieser Anstieg eine signifikante Verbesserung für einen App-Store-internen Bewertungsalgorithmus dar. Eine statistische Signifikanz dieser Verbesserung konnten die Forscher in 89 Prozent der getesteten App Stores beobachten. Apples KI-Entwickler halten ihr mit synthetischen Daten trainiertes Modell für eine gute Erweiterung insbesondere für Apps, bei denen es wenige Nutzerbewertungen und noch kaum Interaktionen (Klicks und Downloads anderer Kunden) gibt. Es könnte also dazu führen, dass noch junge Apps häufiger in Suchergebnissen erscheinen als bisher.