Dezember 23, 2024

BNA-Germany

Folgen Sie den großen Nachrichten aus Deutschland, entdecken Sie ausgefallene Nachrichten aus Berlin und anderen Städten. Lesen Sie ausführliche Funktionen, die Ihnen helfen, die Denkweise der Deutschen zu verstehen.

Google behauptet, künstliche Intelligenz anhand gestohlener Webdaten zu trainieren

Google behauptet, künstliche Intelligenz anhand gestohlener Webdaten zu trainieren

Montags, gizmodo Beobachter Dass der Suchriese seine Datenschutzrichtlinie aktualisiert hat, um offenzulegen, dass verschiedene Dienste für künstliche Intelligenz wie Bard und Cloud AI möglicherweise auf öffentlichen Daten trainiert werden, die das Unternehmen aus dem Internet entfernt hat.

„Unsere Datenschutzrichtlinie war schon immer transparent, da Google öffentlich verfügbare Informationen aus dem offenen Web nutzt, um Sprachmodelle für Dienste wie Google Translate zu trainieren“, sagte Google-Sprecherin Krista Muldoon. die Kante. Dieses neueste Update zeigt lediglich die Einbeziehung neuerer Dienste wie Bard. Im Einklang mit unseren KI-Grundsätzen integrieren wir Datenschutzgrundsätze und -schutzmaßnahmen in die Entwicklung unserer KI-Technologien. „

Dies sind die neuesten Änderungen der Google-Datenschutzerklärung. Das Unternehmen gibt nun zumindest öffentlich zu, wo Ihre Daten verwendet werden …
Bild: Google

Nach dem Update am 1. Juli 2023, Google-Datenschutzerklärung Darin heißt es nun, dass „Google die Informationen nutzt, um unsere Dienste zu verbessern und neue Produkte, Funktionen und Technologien zu entwickeln, die unseren Nutzern und der Öffentlichkeit zugute kommen“ und dass das Unternehmen „öffentlich verfügbare Informationen nutzen darf, um Googles KI-Modelle zu trainieren und Produkte zu entwickeln.“ und Funktionen wie Google Translate, Bard und Cloud AI-Funktionen.“

Sie können sehen, wer Datum der Richtlinienüberarbeitung Das Update sorgt für zusätzliche Klarheit darüber, welche Dienste anhand der gesammelten Daten trainiert werden. Beispielsweise heißt es in dem Dokument nun, dass die Informationen für „Modelle der künstlichen Intelligenz“ anstelle von „Sprachmodellen“ verwendet werden können, was Google mehr Freiheit gibt, Systeme neben LLM auf Ihren öffentlichen Daten zu trainieren und zu erstellen. Und selbst dieser Hinweis ist unten unter einem eingebetteten Link zu „öffentlich zugänglichen Quellen“ vergraben.Ihre lokalen Informationenauf die Sie klicken müssen, um den entsprechenden Abschnitt zu öffnen.

Die aktualisierte Richtlinie legt fest, dass „öffentlich verfügbare Informationen“ zum Trainieren der KI-Produkte von Google verwendet werden, erklärt jedoch nicht, wie (oder ob) das Unternehmen verhindern wird, dass urheberrechtlich geschütztes Material in diesen Datenpool aufgenommen wird. Auf vielen öffentlich zugänglichen Websites gibt es Richtlinien, die das Sammeln von Daten oder Web Scraping zum Zweck des Trainings großer Sprachmodelle und anderer KI-Toolkits verbieten. Es wird interessant sein zu sehen, wie dieser Ansatz mit mehreren globalen Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) zusammenspielt, die Menschen davor schützen, dass ihre Daten ohne ihre ausdrückliche Zustimmung missbraucht werden.

Die Kombination dieser Gesetze und des zunehmenden Wettbewerbs auf dem Markt hat dazu geführt, dass Hersteller beliebter generativer KI-Systeme wie GPT-4 von OpenAI sehr sorgfältig darauf achten, woher sie die Daten haben, mit denen sie trainiert werden, und ob sie Social-Media-Beiträge oder urheberrechtlich geschützte Werke von Künstlern enthalten. Menschen und Autoren .

Die Frage, ob sich die Fair-Use-Doktrin auf diese Art von Anwendungen erstreckt, liegt derzeit in einer rechtlichen Grauzone. Die Unsicherheit hat zu verschiedenen Klagen geführt und die Gesetzgeber in einigen Ländern dazu veranlasst, strengere Gesetze zu erlassen, die besser regulieren können, wie KI-Unternehmen ihre Trainingsdaten sammeln und verwenden. Es wirft auch die Frage auf, wie diese Daten verarbeitet werden sollen, um sicherzustellen, dass sie nicht dazu beitragen schwerwiegende Misserfolge Innerhalb von KI-Systemen haben die Menschen die Aufgabe, diese riesigen Pools an Trainingsdaten zu sortieren, die oft langen Arbeitszeiten und harten Arbeitsbedingungen unterliegen.

Gannett, der größte Zeitungsverlag in den Vereinigten Staaten, ist Google hat geklagt und seine Muttergesellschaft Alphabet, beanspruchen Fortschritte in der Technologie der künstlichen Intelligenz haben dem Suchriesen geholfen, den Markt für digitale Werbung zu monopolisieren. Produkte wie Googles AI Search Beta wurden auch als „Plagiats-EnginesSie stehen in der Kritik, Websites den Traffic zu entziehen.

Unterdessen haben Twitter und Reddit – zwei soziale Plattformen, die große Mengen öffentlicher Informationen enthalten – kürzlich die Macht übernommen gewalttätig Maßnahmen, um zu verhindern, dass andere Unternehmen ihre Daten frei sammeln. Die den Plattformen auferlegten API-Änderungen und -Einschränkungen stießen bei ihren Communitys auf Gegenreaktionen, wobei sich Anti-Dolling-Änderungen negativ auf die Kernerlebnisse der Twitter- und Reddit-Nutzer auswirkten.