Kann ChatGPT den Content meiner Webseite erfassen?

Prüfe mit diesem kostenlosen Online-Tool, ob der Content einer Website von ChatGPT gescannt und damit unkontrolliert in den Antworten des Chatbots landen kann – oder ob eine Webpage für den Zugriff und die Nutzung durch künstliche Intelligenz (KI) gesperrt ist1:

Curnaglias | ChatGPT-Zugriff prüfen

Datenschutz: Suchanfragen und die damit verbundenen Resultate sind für Curnaglias NICHT einsehbar. Prüfergebnisse des ChatGPT-Checkers werden von Curnaglias für die Statistik nur als „Ja“ oder „Nein“ gespeichert. Für die Korrektheit und / oder Vollständigkeit der von diesem Tool gelieferten Daten kann keine Haftung übernommen werden.

Version 2.5 | Fehler gefunden? Jetzt melden

Es liegt im Wesen künstlicher Intelligenz, dass diese mit externem Content trainiert werden muss. Der einfachste Weg dazu ist das systematische Abgreifen von Inhalten von Webseiten.

Dieses „Aufsaugen“ von Informationen durch KI erfolgt automatisiert und ohne dass der normale Betreiber einer Internetpräsenz dies feststellen kann. Auch der weltweit erfolgreichste und grösste Anbieter, OpenAI, nutzt mit seinem Large Language Model für ChatGPT diese Strategie.

Warum Zugriff sperren?

Fünf gewichtige Argumente sprechen dafür, sich gut zu überlegen, ob man als Content-Owner eine Webseite nicht ganz oder partiell für ChatGPT blockieren will:

Erstens kann nach dem Abgreifen von Inhalten einer Webpage durch ChatGPT nicht kontrolliert werden, was mit dem Content geschieht und wie und in welcher Länge und mit welchen Veränderungen dieser der Öffentlichkeit durch ChatGPT zugänglich gemacht wird.

Zweitens ist das Internet kein rechtsfreier Raum. Das unerlaubte Zugreifen auf urheberrechtlich geschützte Inhalte stellt eine Rechtsverletzung dar.

Drittens gehen die führenden Suchmaschinen dazu über, ihren Nutzern nicht mehr wie bis anhin üblich eine Reihe weiterführender Links anzuzeigen. Sie beantworten Fragen gleich selbst mithilfe künstlicher Intelligenz, die dazu den Inhalt gescannter Website zu Hilfe nimmt. Der Internetnutzer verliert damit jeden Anreiz, eine Webseite zu besuchen. Webpages verlieren Traffic, was von den Algorithmen der Suchmaschinen gleich nochmals mit verminderter Sichtbarkeit abgestraft wird.

Ohne Zugriffssperre stellt man, viertens, die auf eigene Rechnung erstellten Inhalte ohne Abgeltung einem kommerziellen Tool zur Verfügung. OpenAI, die Firma hinter ChatGPT, hat im Mai dieses Jahres seine Verluste auf 540 Millionen USD2 verdoppelt: umso aggressiver wird das Unternehmen in Zukunft jede Chance nutzen müssen, Einnahmen zu erzielen.

Fünftens stecken die Mechanismen zur Qualitätskontrolle von Informationen, welche durch künstliche Intelligenz wie ChatGPT erstellt werden, erst in den Kinderschuhen. Informationen oder Produktangaben können entstellt oder verfälscht an prominenter Stelle im Internet erscheinen. Mittel zur Korrektur bestehen aktuell nicht.

Warum ChatGPT erlauben?

Idealisten können sich auf den Standpunkt stellen, dass Inhalte im Internet für die Öffentlichkeit grundsätzlich frei und kostenlos verfügbar sein sollten, weil der freie Austausch von Informationen (möglicherweise, und sofern diese korrekt sind) zu einer besseren Welt führt.

Markennamen profitieren (allenfalls) von einer erhöhten Sichtbarkeit und damit von der Steigerung der Bekanntheit. Gut zu wissen ist dabei, dass ChatGPT nicht offenlegt, welche Inhalte in welchen Zyklen von welchen Quellen überhaupt erfasst werden3.

Fatalisten (oder sind es Realisten?) argumentieren, dass eine Vielzahl von Organisationen und Unternehmen öffentlich zugängliche Inhalte von Webpages im Internet für die eigenen Zwecke aufzeichnet. CommonCrawl etwa verkauft diese gesammelten Daten auch an KI-Applikationen. Deswegen können bereits erfasste Informationen trotz einer Blockade von ChatGPT in den Antworten von Chatbots erscheinen.

Wie blockieren?

Der Zugriff des weltweit erfolgreichsten KI-Anbieters ChatGPT auf eigene Online-Inhalte lässt sich mühelos mit wenigen Zeilen Code unterbinden4. Wem das dazu erforderliche Hintergrundwissen fehlt, kann bei einer fehlerhaften Implementation allerdings auch eine Webseite komplett unsichtbar machen.

Der Umfang der Sperre lässt sich individuell definieren und je nach Sinn und Zweck einer Webseite konfigurieren5. Ausgesuchter Webcontent kann damit für KI-Verwendungen weiterhin zugänglich gehalten werden.

Eine Anleitung dazu findet sich hier. Falls Sie unseren Service dazu in Anspruch nehmen möchten, nutzen Sie bitte das Kontaktformular.

__

1 Das Testtool auf dieser Webpage prüft, ob ChatGPT durch Ausschluss der betreffenden Webcrawler oder durch Sperren der IP blockiert wird.

2 Similarweb, 6. Juli 2023; Analyticsindiamag.com, 10. August 2023

3 Die dem US-amerikanischen Recht geschuldete Formulierung, welche alles offenlässt, von OpenAI lautet: „We may crawl the web to improve our systems.“

4 Die zwei bekanntesten Wege, Bots von einer Webseite auszusperren, erfolgen über die robots.txt in der Root, oder alternativ durch Ausschluss der betreffenden IP-Adressen in der htaccess oder einer Blacklist der Firewall.

5 Das kostenlose Check-Tool auf dieser Webseite prüft das Vorhandensein einer vollständigen Sperrung. Spezifische Abstufungen der Zugriffsberechtigung können zu unvollständigen oder falschen Prüfresultaten führen.