Im Dezember 2023 reichte die New York Times Klage gegen OpenAI ein und behauptete, ChatGPT sei aus der „unentgeltlichen Nutzung“ des „geistigen Eigentums“ der Times entstanden. In der Klageschrift wurden Hunderte von Beispielen angeführt, in denen die Antworten des Chatbots nahezu identisch mit den von der Times veröffentlichten Artikeln waren. Noch beunruhigender war, dass mehrere Antworten, die der Times zugeschrieben wurden, nie veröffentlicht worden waren, und einige sogar falsche Informationen enthielten.
Es kann Jahre dauern, bis die Gerichte über die Rechtmäßigkeit der von OpenAI verwendeten Datenerhebungsmethoden entscheiden. In der Zwischenzeit äußern Verleger ihre Besorgnis darüber, wie und wann ihre Inhalte in LLMs aufgenommen werden und suchen dringend nach Lösungen, um zu verhindern, dass ihr geistiges Eigentum zum Trainieren von LLMs verwendet und von KI-Tools auf unvorhersehbare Weise wieder ausgegeben wird.
Warum die Verleger besorgt sind?
Einige Dokumente werden bereits im Rahmen von Verträgen verkauft, die die Indizierung, Zusammenfassung und Verwendung für das Training von LLMs ausdrücklich untersagen. In fast allen Fällen werden diese Dokumente als PDF vertrieben, da PDFs digitale Container für Informationen sind, die kontrolliert werden können.
So sind in den Kaufverträgen für PDF von technischen Normen aus mehreren Gründen Beschränkungen für die Verwendung in der KI enthalten:
- Der Text von Normungsdokumenten ist präzise und jede Verkürzung oder Umformulierung könnte die Bedeutung wichtiger Teile verändern, was bei bestimmten Arten von Normen (Luftfahrt, Kraftstoffe, schwere Maschinen, usw.) zu katastrophalen Ergebnissen führen könnte.
- Selbst die ausgefeiltesten LLMs bringen regelmäßig Fehler, so genannte „Halluzinationen“, in ihre Ausgabe ein, und es gibt derzeit keine zuverlässige Möglichkeit, zwischen den guten Antworten aus dem Originaltext und den vom Modell erfundenen zu unterscheiden. Einige Systeme versuchen, dieses Problem zu lösen, indem sie Verweise auf den Ausgangstext einfügen, aber Links mindern das Risiko der Ungenauigkeit nur, wenn der Benutzer die Antwort mit dem Zitat vergleicht.
- Daten, die von einem Benutzer in ein LLM eingegeben werden, können Teil des Trainingssatzes für dieses LLM werden und somit anderen Benutzern zur Verfügung gestellt werden, was eine Verletzung des Urheberrechts darstellt. Die meisten kommerziellen LLM-Angebote enthalten inzwischen eine Art von Segmentierung, um eine unerlaubte Nutzung zu verhindern, aber die Effektivität dieser Kontrollen bleibt ungetestet.
Wie LLMs Inhalte für das Training extrahieren
Der Mechanismus, mit dem LLMs Inhalte aufnehmen, unterscheidet sich nicht von dem, der von Suchmaschinen verwendet wird: Er umfasst die Extraktion von Text und die anschließende Verarbeitung, um den Text zu organisieren und zu strukturieren, damit er indiziert werden kann.
Es gibt technische Unterschiede bei der Verarbeitung des extrahierten Textes, aber da beide Ansätze auf der ursprünglichen Textextraktion aufbauen, sind sie den gleichen Risiken und Komplikationen ausgesetzt:
- Einige PDF enthalten keinen zu extrahierenden Text, da es sich um Bilder von Seiten handelt. In diesem Fall muss der Text mittels optischer Zeichenerkennung (OCR) generiert werden, die im Allgemeinen genau ist, aber fast nie perfekte Ergebnisse liefert.
- Bei PDFs handelt es sich in der Regel um unstrukturierte Daten und einige Elemente – insbesondere Tabellen, Diagramme und spezielle Formatierungen – sind selbst für die ausgefeiltesten Werkzeuge schwer zu analysieren.
- PDFs enthalten oft komplexe Zeichensetzung und andere typografische Konstruktionen, die die Bedeutung des Textes verändern können, wenn sie nicht richtig verstanden werden, insbesondere wenn der Text in einer ungewöhnlichen Sprache verfasst ist.
Der Text von verschlüsselten PDFs kann jedoch nicht extrahiert werden. Ein PDF, das verschlüsselt wurde kann also weder indiziert noch in einen LLM aufgenommen werden.
Die Verschlüsselung ist der effektivste Schutz
Der Inhalt einer verschlüsselten PDF kann nur von einer Anwendung gelesen werden, die zur Entschlüsselung in der Lage ist und Zugang zum erforderlichen Schlüssel hat. Es gibt zwei Möglichkeiten, dies zu erreichen.
- Passwortmethode (Standardsicherheit)
Eine Möglichkeit, eine PDF-Datei zu verschlüsseln, ist die Verwendung des eingebauten „Passwort“- oder „Standard“-Sicherheitshandlers, den fast alle PDF-Anwendungen unterstützen. Bei dieser Methode können Sie die PDF erst öffnen, wenn Sie ein Kennwort eingegeben haben.
Die Kennwortsicherheit ist nur sinnvoll, wenn Sie Informationen für sich behalten oder an Personen weitergeben möchten, denen Sie vertrauen. Man muss jedem vertrauen, der das Kennwort hat, denn es gibt keine Möglichkeit zu verhindern, dass diese Person sowohl die PDF als auch das Kennwort weitergibt.
Kennwortsicherheit lässt sich auch nicht gut skalieren, weil das Hinzufügen von Kennwörtern in der Regel ein manueller Prozess ist und weil sowohl die PDF als auch das Kennwort weitergegeben werden müssen. Die Kennwortsicherheit wurde nicht für die Veröffentlichung oder eine andere breite Verteilung konzipiert.
- Sicherheitshandler-Methode (FileOpen Rights Management)
Das PDF-Format unterstützt andere „Security Handler“ wie FileOpen, die den Inhalt der Datei entweder im Voraus oder bei Bedarf in Echtzeit verschlüsseln und die Entschlüsselung in bestimmten Anwendungen, für bestimmte Personen oder Gruppen usw. selektiv aktivieren können.
Bei der Anzeige von mit FileOpen verschlüsselten PDFs ist der Authentifizierungsprozess für legitime, autorisierte Endbenutzer normalerweise unsichtbar, sperrt aber unautorisierte Benutzer und Bots aus.
Verschlüsselte PDFs können ohne Authentifizierung bereitgestellt werden. Das heißt, eine Website kann Links enthalten, auf die jeder klicken kann, um die PDF in einem Browser anzuzeigen, aber der Inhalt ist immer noch vor der Extraktion durch KI-Crawler geschützt und die Benutzer werden daran gehindert, die Dateien herunterzuladen oder weiterzugeben.
Inhaltseigentümer sollten mit dem Einsatz nicht warten
Wie die verschiedenen Gerichtsverfahren gegen KI-Betreiber zeigen, ist das Urheberrecht kein Selbstläufer. Der Schutz des geistigen Eigentums erfordert entweder technische Maßnahmen wie Verschlüsselung, um eine unbefugte Nutzung zu verhindern, oder rechtliche Schritte, um frühere Missbräuche abzustellen.
Die Implementierung von Systemen zur Verhinderung des Diebstahls von Inhalten ist einfach, kostengünstig und effektiv. Letztendlich wird das Rechtssystem entscheiden, ob die Alternative – der Versuch, vor Gericht zu gehen, um vergangene Handlungen wiedergutzumachen und künftige zu untersagen – auch funktioniert.
Sanford Bingham, FileOpen Systems, 2024