technologia
Google twierdzi, że publiczne dane są uczciwą grą do szkolenia sztucznej inteligencji • Rejestr
Google zaktualizował swoją politykę prywatności, aby potwierdzić, że gromadzi publiczne dane z sieci w celu szkolenia swoich modeli i usług sztucznej inteligencji – w tym swojego chatbota Bard i swojej wyszukiwarki, która oferuje teraz możliwość generowania odpowiedzi na zapytania w locie.
The Drobnym drukiem W sekcji „Badania i rozwój” jest teraz napisane: „Google wykorzystuje informacje do ulepszania naszych usług oraz opracowywania nowych produktów, funkcji i technologii, które przynoszą korzyści naszym użytkownikom i opinii publicznej. Na przykład wykorzystujemy publicznie dostępne informacje do trenowania modeli sztucznej inteligencji Google i opracowywania produktów, takich jak Google Translate, Bard i Cloud AI.
Używamy publicznie dostępnych informacji do trenowania modeli sztucznej inteligencji Google oraz opracowywania produktów i funkcji
Ciekawy, Rej Pracownicy spoza USA nie mogli zobaczyć tekstu cytowanego pod powyższym linkiem. Jednakże ten plik PDF Wersja zasad Google stanowi: „Możemy gromadzić informacje, które są publicznie dostępne online lub z innych publicznych źródeł, w celu szkolenia modeli i produktów sztucznej inteligencji Google oraz funkcji, takich jak Google Translate, Bard i Cloud AI, aby mogły się rozwijać”.
Zmiany określają zakres Google w zakresie szkoleń AI. Do tej pory dyrektywa mówiła tylko o „modelach językowych” i odnosiła się do Tłumacza Google. Jednak sformułowanie zostało zmienione, aby objąć „modele AI”, aby uwzględnić Bard i inne systemy zbudowane jako aplikacje na platformie chmurowej.
Rzecznik Google powiedział: Rejestr że aktualizacja zasadniczo nie zmieniła sposobu, w jaki trenuje swoje modele sztucznej inteligencji.
„Nasza polityka prywatności od dawna zapewniała przejrzystość, że Google wykorzystuje publicznie dostępne informacje z otwartej sieci do trenowania modeli językowych dla usług takich jak Tłumacz Google. Ta najnowsza aktualizacja wyjaśnia tylko, że nowsze usługi, takie jak Bard, są również uwzględnione. Integrujemy zasady i ochronę prywatności z „rozwojem naszych technologii sztucznej inteligencji zgodnie z naszymi zasadami sztucznej inteligencji” – powiedział rzecznik w oświadczeniu.
Przez lata programiści przeszukiwali sieć, albumy ze zdjęciami, książki, media społecznościowe, kod źródłowy, muzykę, artykuły i nie tylko, aby zebrać dane szkoleniowe dla systemów sztucznej inteligencji. Proces budzi jednak kontrowersje, ponieważ materiał jest zwykle chroniony prawem autorskim, warunkami korzystania z usługi i licencjami, a cała sprawa doprowadziła do procesów sądowych.
Niektórzy ludzie są niezadowoleni, że nie tylko ich własne treści są wykorzystywane do tworzenia systemów uczenia maszynowego, które powielają ich pracę, a tym samym potencjalnie zagrażają ich źródłom utrzymania, ale także że dane wyjściowe modeli są zbyt bliskie naruszenia praw autorskich lub licencji, ponieważ udostępniają niezmodyfikowane dane szkoleniowe .
Twórcy sztucznej inteligencji mogliby argumentować, że ich wysiłki mieszczą się w ramach dozwolonego użytku, a wyniki modeli są nową formą pracy, a nie kopią oryginalnych danych szkoleniowych. Jest to gorąco dyskutowana kwestia.
Na przykład firma Stability AI została pozwana przez firmę Getty Images za zbieranie i niewłaściwe wykorzystywanie milionów obrazów z jej witryny z obrazami stockowymi w celu szkolenia narzędzi zamiany tekstu na obraz. W międzyczasie OpenAI i jego właściciel Microsoft również byli nękani wieloma procesami sądowymi, w których zarzucano im, że „niewłaściwie pobierają 300 miliardów słów z sieci,„ książek, artykułów, stron internetowych i postów — w tym danych osobowych uzyskanych bez zgody”. kod z publicznych repozytoriów do budowy narzędzia do programowania par AI GitHub Copilot.
Przedstawiciel Google odmówił wyjaśnienia, czy gigant reklamowy i wyszukiwania usunie publicznie chronione prawem autorskim lub licencjonowane dane lub posty w mediach społecznościowych, aby wyszkolić swoje systemy.
Ponieważ ludzie są teraz lepiej poinformowani o tym, jak szkolone są modele AI, niektóre firmy internetowe zaczęły pobierać od programistów opłaty za dostęp do ich danych. przepełnienie pakietu, Reddit, a na przykład Twitter wprowadził w tym roku opłaty lub nowe zasady dostępu do swoich treści za pośrednictwem interfejsów API. Inne witryny, takie jak Shutterstock i Getty, zdecydowały się udzielić licencji na swoje obrazy twórcom modeli AI i nawiązały współpracę z takimi firmami Meta I Nvidia. ®
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”