Automattic, czyli firma, do której należy platforma blogowa Tumblr oraz WordPress ma zamiar sprzedać dane użytkowników, w tym dostęp do ich blogów w celu szkolenia modeli językowych AI. To już drugi tak duży gracz po Reddit, który zdecydował się na ten krok.

W zeszłym tygodniu informowaliśmy, że zdecydował się na to najpopularniejszy mikroblog w internecie. Dostęp do serwisu dla AI, został wyceniony w jego przypadku na 60 milionów dolarów rocznie. Redakcja serwisu 404 Media dotarła do wewnętrznych dokumentów, które zdradzają, że taki sam plan ma również Automattic w stosunku do platform WordPress (chodzi tylko o blogi na WordPress.com, a nie cały system CMS) oraz Tumblr. Klientami mają być OpenAI oraz Mindjourney.

Szkolenie modeli językowych AI jest bardzo ważne z punktu widzenia twórców. Zasadniczo nie ma tu znaczenie temat pytania i odpowiedzi, a to, w jaki sposób są sformułowane. Tego najlepiej nauczyć się na żywym przykładzie.

WordPress i Tumblr posłużą do uczenia AI

Tumblr

Redaktorzy 404 Media dotarli do źródła, które przedstawiło wewnętrzne dokumenty Automattic opisujące przekazanie danych użytkowników serwisów Tumblr oraz WordPress do uczenia modeli językowych AI. Chodzi tu też na pewno o OpenAI (twórcę ChatGPT) oraz Mindjourney. Nie wiadomo czy oba serwisy już zyskały dostęp do danych, czy też opisywano tylko proces ich udostępniania oraz sprawy techniczne (nie wynika to jasno z zebranej dokumentacji).

Dokumentacja zawiera komentarz Cyle’a Gage’a, menadżera produktu w Tumbr, którego zdaniem zebrano pokaźną ilość postów użytkowników. Zasadniczo Tumblr nie powinien tego robić bez zgody i poinformowania użytkowników. Co więcej, zdaniem Cyle’a, proces ten był „niechlujny”. Dane zawierały też szkice i nieopublikowane materiały nawet z kont zawieszonych i tych oznaczonych jako NSFW. Zakres danych odnosi się do postów od 2014 do 2023 roku.

[MWC 2024] Jolla z kolejnymi pomysłami. Wielki powrót fińskiej firmy z urządzeniem AI

Cała sprawa wzbudziła duży rozdźwięk między pracownikami Automattic. Do zagregowanych danych przedostało się sporo materiałów, których tam być nie powinno. Za przykład można tu podać to, że zaciągnięto nawet dane z reklam na Tumblr, pochodzące od zewnętrznych dostawców. Znalazły się tu również odpowiedzi na zadane pytania, które mają formę prywatnej wiadomości widocznej tylko dla adresata. Mogą tam się więc znajdować dane o krytycznym znaczeniu dla bezpieczeństwa i prywatności, którymi żywic się będą w przyszłości algorytmy AI.

Tumbr ma już dzisiaj opublikować funkcję, która pozwoli wyłączyć lub włączyć agregowanie danych dla AI. Nie wiemy, która opcja będzie ustawiona jako domyślna. Wiele osób zaczęło usuwać swoje materiały z Tumblr. Robią to nawet pracownicy. Nie wiemy, czy agregowano również dane z platformy WordPress.com.