Reddit wird den Bot-Zugriff auf seine öffentlichen Daten blockieren, um Web-Scraping für KI-Training zu verhindern

MADRID, 27. Juni (Portaltic/EP) –

Forum reddit hat angekündigt, dass es sein Robot Exclusion Protocol (robots.txt-Datei) aktualisieren wird, um den Zugriff automatisierter „Bots“ auf seine öffentlichen Daten zu blockieren und so das sogenannte Data Scraping oder „Web Scrapping“ zu verhindern, das beim Training künstlicher Intelligenz (KI) eingesetzt wird. .

Daten-Scraping bzw „Web-Scraping“ Dabei handelt es sich um einen Prozess zum Sammeln von Inhalten von Webseiten mithilfe einer Software, die den HTML-Inhalt dieser Websites extrahiert, um die Informationen zu filtern und zu speichern, was mit dem automatischen Kopier- und Einfügeprozess verglichen wird.

Obwohl dies eine gängige und legale Praxis ist, verstößt sie gegen die Nutzungsbedingungen einiger Websites, da sie für böswillige Zwecke eingesetzt werden kann, wie die Entwickler Robb Knight und Wired kürzlich bestätigt haben.

Das Paar entdeckte, dass der KI-Entwickler Perplexity das Robot Exclusion Protocol bestimmter Websites ignoriert und damit Web Scraping durchgeführt hatte, um seine Modelle der künstlichen Intelligenz zu trainieren.

Um solche Situationen zu vermeiden, hat Reddit angekündigt, dass es in den kommenden Wochen sein Bot-Ausschlussprotokoll aktualisieren wird, das „allgemeine Anweisungen“ dazu gibt, wie es Drittanbieter-Agenten das Crawlen seiner Verzeichnisse erlaubt und nicht erlaubt.

Sobald Sie die robots.txt-Datei aktualisiert haben, blockiert sie weiterhin unbekannte „Bots“ und Crawler vom Zugriff auf reddit.com und begrenzt Ihre Browsing-Geschwindigkeit. Trotzdem, wird den offenen Zugang zu Ihren Inhalten aufrechterhalten für Forscher und Organisationen wie das Internet Archive, die es als „gutgläubige Akteure“ betrachtet, die auf ihre Inhalte „für nichtkommerzielle Zwecke“ zugreifen.

Im Gegensatz dazu erfordert die Plattform eine Genehmigung und eine Gebühr, wenn der Zugriff auf Daten und Tools kommerziellen Zwecken dient, wozu auch das Training von KI-Modellen gehört.

Damit hat es darauf hingewiesen, dass jeder, der auf seine Website zugreift, seine Nutzungsrichtlinien einhalten muss, „einschließlich derjenigen, die zum Schutz von Redditoren gelten“, und hat interessierten Parteien einen Leitfaden für den rechtmäßigen Zugriff auf seine Inhalte zur Verfügung gestellt.

Es sei jedoch daran erinnert, dass Reddit bereits Anfang Mai eine neue Richtlinie für öffentliche Inhalte angekündigt hat, die auf der Erkenntnis beruht, dass „immer mehr kommerzielle Unternehmen unbefugten Zugriff nutzen oder autorisierten Zugriff missbrauchen, um öffentliche Daten zu sammeln“. die auf der Plattform.

Außerdem stellte er einen neuen „Subreddit“ für Forscher vor, mit dem er seine Absicht demonstrierte, den öffentlichen Zugang zu den Inhalten der Plattform für „diejenigen zu erhalten, die an die Nutzung glauben“. Verantwortlicher und nichtkommerzieller Umgang mit öffentlichen Daten“.