Beitrag

© Kazi | Adobe Stock

Lizenz zum Trainieren? Urheberrechtliche Grundlagen des LLM-Trainings

Große LLMs verdanken ihre Funktionalität auch der schieren Menge an Daten, mit denen sie trainiert wurden. Die hierfür verwendeten Texte sind in der Regel (zunächst) frei verfügbar aus dem Internet entnommen. Aus rechtlicher Sicht stellt sich hierbei die Frage, ob und gegebenenfalls unter welchen Voraussetzungen aus dieser Verfügbarkeit eine entsprechende Nutzungserlaubnis für das Training von Sprachmodellen folgt. Das rechtskonforme Training von LLMs dürfte auch bei der Einsatzentscheidung auf Nutzerseite eine Rolle spielen: Zum einen könnte der Einsatz von möglicherweise rechtswidrig trainierten Modellen aus Gesichtspunkten der Compliance problematisch sein, zum anderen säht diese Tatsache potenzielle Zweifel an der Rechtskonformität des Outputs.

 

Urheberrechte

Im deutschen Urheberrecht gilt der Grundsatz: Keine Nutzung urheberrechtlich geschützter Werke ohne entsprechende Rechteeinräumung durch den Rechteinhaber oder ausdrückliche gesetzliche Erlaubnis. (Raue, in: Dreier/Schulze, § 15 Rn 1 f.; Lüft, in: Wandtke/Bullinger, vor §§ 44a ff. Rn 1) Dies gilt auch für Werke, die im Internet öffentlich zugänglich gemacht werden. Dem Urheber steht es grundsätzlich frei, Dritten etwaige Nutzungsrechte an seinen Werken einzuräumen oder diese inhaltlich zu beschränken. (Soppe, in: Götting/Lauber-Rönsberg/Rauer, § 31 Rn 61 ff.) Soweit keine explizite Gestattung des Urhebers für das KI-Training vorliegt, kommt alternativ das Vorliegen eines gesetzlichen Erlaubnistatbestandes in Betracht. Einen spezifisch für das Training von Sprachmodellen vorgesehenen Erlaubnistatbestand weist das deutsche Urheberrecht jedoch nicht auf.

 

Text und Data-Mining

Allerdings existieren gesetzliche Regelungen für die Verwendung geschützter Werke zum Zweck des sogenannten Text- und Data-Mining in Form der Vorschriften des § 60d und § 44b UrhG. Auch wenn es sich beim Text und Data Mining seiner Legaldefinition (§ 44b Abs. 1 UrhG) nach zunächst lediglich um die strukturierte Datenanalyse handelt (Raue, ZUM 2021, 793, 795), bejaht die überwiegende Literatur (Dreier, in: Dreier/Schulze, § 44b Rn 5; Bomhard, in: Götting/Lauber-Rönsberg/Rauer, § 44b Rn 11a f.; Wendt, in: Wendt/Wendt § 10 Rn 35; Käde, KIR 2024, 162, 163 ff; John/Klostermeyer, in: Hoeren/Sieber/Holznagel, Teil 29 Rn 15 ff.; Baumann, NJW 2023, 3673; Radtke, ZGE 17, 2025, 1, 38; a.A. Dornis/Stober, Urheberrecht und Training generativer KI-Modelle – Technologische und juristische Grundlagen, S. 13; Schack, NJW 2024, 113, 114 f.; Dornis, GRUR 2024, 1676) sowie erste Rechtsprechung (LG Hamburg NJW 2024, 3383) die Anwendbarkeit im Kontext des LLM-Trainings.

Dies ist nicht nur aus praktischen Erwägungen sinnvoll, sondern entspricht auch unserer Ansicht nach dem Wortlaut der Vorschriften: § 44b UrhG definiert das Text und Data Mining als „automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“. Auch wenn es sich beim Training von Sprachmodellen um einen komplexeren Prozess handeln mag, so werden dabei die Trainingsdaten analysiert, um Zusammenhänge zwischen diesen offenzulegen. (So im Ergebnis auch Käde, KIR 2024, 162, 163.)

Praxistipp

Während der Anwendungsbereich des § 60d UrhG nur rein wissenschaftlichen, nicht aber kommerziellen Forschungsorganisationen zugutekommt, handelt es sich bei § 44b UrhG um den allgemeinen Erlaubnistatbestand, der sich sowohl an Privatpersonen als auch an kommerzielle Akteure richtet. (Für eine entsprechende Darstellung vgl. Raue, ZUM 2021, 793, 797 ff.)

 

Vervielfältigungshandlung

Damit die für das LLM-Training notwendige Vervielfältigungshandlung (§ 16 UrhG) nach § 44b Abs. 2 S. 1 UrhG zulässig ist, muss das betreffende Werk rechtmäßig zugänglich sein. Wichtig ist in diesem Kontext die folgende Differenzierung: Voraussetzung ist hier die Rechtmäßigkeit des Zugangs des Nutzers zum geschützten Werk und nicht die Rechtmäßigkeit der Zugänglichmachung durch den Rechteinhaber. (Dreier, in: Dreier/Schulze § 44b Rn 8; BT-Drucks 19/27426, 88) Es dürfen also keine Werke verwendet werden, auf die keine legale Zugriffsmöglichkeit bestand, weil diese beispielsweise gegen Zugriffe durch Schutzmaßnahmen gesichert waren.

 

Vorbehalt

Im Übrigen folgt die Vorschrift der Systematik einer generellen Erlaubnis mit Verbotsvorbehalt: Sie schränkt die eigentlich zulässige Verwendung ein, sofern sich der Rechteinhaber die entsprechende Nutzung nach § 44b Abs. 3 UrhG vorbehalten hat. Für online zugängliche Werke muss ein solcher Vorbehalt nach Satz 2 in maschinenlesbarer Form vorliegen.

In der Literatur wird die Anforderung der Maschinenlesbarkeit lebhaft diskutiert. Während vereinzelte Stimmen (Hartmann/Jacobsen, MMR-Aktuell 2021, 441332; Wilmer, K&R 2023, 233, 234) einen entsprechenden Vorbehalt in natürlicher Sprache genügen lassen wollen, wird von anderer Seite (Bomhard, in: Götting/Lauber-Rönsberg/Rauer, § 44b Rn 31; Hamann, ZGE 16, 2024, 113, 144; Maamar, ZUM 2023, 481, 484; Im Ergebnis wohl auch Dreier, in: Dreier/Schulze, § 44b Rn 9; Bullinger, in: Wandtke/Bullinger, § 44b Rn 10) die Maschinenlesbarkeit des Vorbehalts in Form eines strukturierten Datensatzes (wie beispielweise im Rahmen der robots.txt) gefordert.

 

Ausschlussklauseln

Dieser Streit ist in seiner Praxisrelevanz nicht zu unterschätzen: Soweit auch Ausschlussklauseln in Nutzungsbedingungen die Anforderung der Vorschrift an den Vorbehalt erfüllen, dürfte durch die schiere Menge an Formulierungsmöglichkeiten eine entsprechende Erkennbarkeit ohne ein eigens hierfür trainiertes LLM nicht möglich sein. Es steht daher außer Frage, dass der Aufwand für die Feststellung, ob Daten für das Training herangezogen werden dürfen, enorm steigen würde. Aus rechtlicher Sicht ist dies kein valides Argument: Das Urheberrecht soll grundsätzlich den effektiven Werkschutz sicherstellen (Wiebe, in: Spindler/Schuster, § 1 Rn 1 ff.), zumal die entsprechende Einholung der Erlaubnis durch den Rechteinhaber immer eine gangbare Alternative darstellt.

Nach unserer Ansicht spricht auch der Wortlaut der Norm gegen die Annahme, dass Ausschlussklauseln in natürlicher Sprache einen wirksamen Vorbehalt im Sinne des § 44b Abs. 2 S. 2 UrhG darstellen sollen. Die Maschinenlesbarkeit setzt voraus, dass der Vorbehalt automatisiert lesbar ist. Die eingelesene Information muss also aus sich heraus ohne einen weiteren Interpretationsschritt durch eine Software eindeutig als „Vorbehalt = wahr“ eingeordnet werden können. Hierfür muss bereits im Code des betreffenden Programms eindeutig festgelegt werden, welche Attribute den Vorbehalt definieren und welche Werte diese Attribute erhalten können. Nur dann ist ein „einfaches Lesen“ der Maschine im Sinne einer eindeutigen Semantik gegeben.

Im Gegensatz dazu würde die Nutzung eines LLM zur Ermittlung des Inhalts von Ausschlussklauseln gerade kein „einfaches Lesen“ mehr darstellen. Vielmehr handelt es sich in diesem Zusammenhang um eine Interpretation der Semantik auf Basis von Wahrscheinlichkeiten. Eine eindeutige Semantik könnte – zumindest zum jetzigen Zeitpunkt – nicht erreicht werden.

Im Urteil des LG Hamburg (LG Hamburg NJW 2024, 3383 Rn 66), der einzigen bis jetzt veröffentlichten Entscheidung zu dieser Thematik, werden obiter dictum Ausschlussklauseln zu wirksamen Vorbehalten im Sinne des § 44b Abs. 3 S. 2 UrhG erklärt. Wie sich die weitere Rechtsprechung und der Meinungsstand in der Literatur entwickelt, wird mit Spannung erwartet.

Nach dem aktuellen Stand muss daher empfohlen werden, betreffende Werke möglichst genau nach etwaigen Vorbehalten – auch in Textform – zu untersuchen, bevor betreffende Werke zum Training von Sprachmodellen herangezogen werden.

 

Ein Auszug aus dem Buch Garling/Niemann/Roßmann, Generative KI in der Rechtsberatung, 1. Auflage, 2025, S 124-127.

Eine weitere kostenlose Leseprobe finden Sie in unserer Onlinebibliothek Anwaltspraxis Wissen

Diesen Beitrag teilen

Facebook
Twitter
WhatsApp
LinkedIn
E-Mail

Unser KI-Spezial

Erfahren Sie hier mehr über Künstliche Intelligenz – u.a. moderne Chatbots und KI-basierte…