Urheberrechtlich geschützte Bücher als Basis für Apple Intelligence? Buchautoren klagen


Große Sprachmodelle (LLMs), welche in den vergangenen Jahren die Basis dessen darstellen, was landläufig als Künstliche Intelligenz (KI) bezeichnet wird, sind im Grunde ein Destillat aus einer Unmenge von menschengemachten Inhalten. Je größer und hochwertiger der Datensatz, der beim (Pre-)Training zur Verfügung stand, desto brauchbarer sind die resultierenden Antworten. Um an entsprechendes Material zu gelangen, nehmen es manche KI-Entwickler nicht so genau mit dem Urheberrecht. Eine Sammelklage, welche am Bezirksgericht in San José eingereicht wurde, wirft Apple vor, urheberrechtlich geschütztes Material für zwei LLMs verwendet zu haben.
Dies betrifft einerseits ein Open-Weights-Modell namens OpenELM, welches Apple im Rahmen einer
Forschungsarbeit zu lokalen LLMs veröffentlichte, andererseits das Foundation-Modell – die Basis von Apple Intelligence. Die Argumentation in der
Klageschrift verwendet eine Kernaussage von Apple zur Herkunft des Trainingsmaterials, um mittels einer Kette von Annahmen zu dem Schluss zu gelangen, dass zwei urheberrechtlich geschützte Bücher Teil des Trainingsmaterials sind.
OpenELM verwendete "The Pile"Grundlage der Klage stellt eine gigantische Sammlung digitaler Raubkopien von Büchern, welche auf Tauschbörsen zum Download angeboten wurden: Die Sammlung namens "Books3". Sie enthält knapp 200.000 Bücher, zwei Bücher der Klagenden sind Teil davon. Books3 ist Teil eines Datensatzes namens "The Pile", welchen viele KI-Entwickler als Trainingsdatensatz einsetzten. Apple verwendete diesen, allerdings nur zu Forschungszwecken: Der Konzern hat zugegeben, OpenELM auf dessen Basis
aufgebaut zu haben. Dies diente dem Zweck, die Leistung des lokalen LLMs mit konkurrierenden Sprachmodell-Algorithmen zu vergleichen.
Argumentation über mehrere EckenFür die Foundation-Modelle, so hat Apple explizit
verlautbart, kam diese fragwürdige Datensammlung nicht zum Einsatz. Apple gibt an, einerseits Material von Verlagen für den Zweck des KI-Trainings lizenziert zu haben, andererseits auf öffentlich verfügbare Quellen im Internet zugegriffen zu haben. Dafür setzt Apple einen Scraper namens Applebot ein. Die Klageschrift argumentiert nun, dass "Books", und damit die Werke der Kläger, trotzdem Teil der Trainingsquellen sind. Die Argumentation: andere Firmen, etwa Meta und OpenAI, hätten geschützte Werke verwendet, obwohl sie behaupteten, nur öffentliche Quellen verwendet zu haben. Das müsse dann auch auf Apple zutreffen. Außerdem hätte der Applebot-Scraper beim Scannen öffentlicher Netzinhalte auch das illegale Books3-Konvolut entdecken können, da es sich an vielen Orten finden ließ, etwa auf der KI-Experimentierplattform "Hugging Face". Auf diesem Weg wären die Werke der Kläger durch die Hintertür Teil von Apples Trainingsmaterial geworden.
Verhandlung mit Geschworenen angepeiltEin stichhaltiges Indiz dafür, dass die beiden Bücher in der Foundation-LLM-Basis vorhanden sind, liefert die Klageschrift nicht. Die Sammelklage strebt eine Verhandlung vor Geschworenen an. Hier müsste Apple die Geschworenen überzeugen, dass kein urheberrechtlich geschütztes Material bei Apple Intelligence zur Anwendung kam. Eine ähnliche Klage im September änderte im Schlichtungsverfahren: Der KI-Anbieter Anthropic erklärte sich bereit,
1,5 Milliarden US-Dollar an Urheber zu zahlen – etwa 3.000 Dollar pro Buch. Allerdings konnte Antropic nachgewiesen werden, dass der Konzern wissentlich geschützte Bücher verwendete.