Poniższa treść zawiera transkrypcję z powyższego materiału video.
Najkrócej rzecz ujmując, TDM to informatyczne określenie na sposób pozyskiwania z olbrzymich zasobów danych pewnej zawartości informacyjnej, która sprawia, że systemy sztucznej inteligencji nabierają takich zdolności, o których dzisiaj mówi cały świat. Nabywają umiejętności pisania tekstów, generowania obrazów albo utworów audiowizualnych - właściwie zawartości dowolnej jakości, w dowolnej ilości i praktycznie bezkosztowo.
TDM, Text Data Mining, jest od dawna już znanym rodzajem zautomatyzowanej techniki analitycznej, która służy zidentyfikowaniu, w olbrzymich zbiorach danych, pewnych wzajemnych zależności, korelacji, które potem mogą być odtworzone w materiale wygenerowanym przez systemy sztucznej inteligencji.
Ten temat jest tak ważny dlatego, że właściwie dla całego ekosystemu sztucznej inteligencji, do przeprowadzenia eksploracji, wymagane jest pozyskanie z sieci internetowej olbrzymich zasobów danych. Te dane to często utwory albo przedmioty innych praw, na przykład praw pokrewnych.
Tematyka legalności TDM z pewnością będzie zyskiwać na aktualności. Wedle art. 3 i 4 dyrektywy o prawie autorskim na jednolitym rynku cyfrowym, możliwa jest eksploracja tekstów i danych zarówno przez instytucje naukowe w celach naukowych, jak również organizacje zajmujące się propagowaniem kultury w celach naukowych - o tym stanowi artykuł trzeci rzeczonej dyrektywy. Artykuł 4 natomiast, umożliwia wydobywanie tych informacji, eksplorowanie tekstów i danych przez pozostałe podmioty. Jaka jest różnica pomiędzy artykułem trzecim a czwartym? Jaka jest różnica pomiędzy TDM w celach niekomercyjnych (naukowych) oraz w celach nienaukowych?
Ona jest fundamentalna i zasadnicza. Jednostki badawcze, organizacje propagujące kulturę, jeżeli eksplorują zawartość informacyjną z danych naukowych w celach niekomercyjnych, właściwie na korzyść nas wszystkich, mogą to robić praktycznie bez ograniczeń, o ile dany przedmiot, będący przedmiotem ekstrakcji, jest dostępny w Internecie.
Podmioty z kolei które czynią to w celach ekstrakcji komercyjnej, a więc wszystkie inne, które nie przynależą do artykułu 3, muszą liczyć się z tak zwanym opt-outem, a więc z zastrzeżeniem umieszczonym przez podmiot uprawniony do danych, o braku możliwości wykorzystania danego utworu dla celów eksploracji.
Innymi słowy, jeżeli producent komercyjnie wykorzystywanych systemów sztucznej inteligencji chciałby pozyskiwać z Internetu dane, aby na ich podstawie budować swoją wiedzę o otaczającym nas świecie, musi przestrzegać zasad. Czy też nie może korzystać z tych danych, wobec których zastrzeżono opt-out, czyli wobec których powiedziano: ,,nie wolno Ci korzystać z mojego utworu, z mojego przedmiotu praw pokrewnych dla celów publicznych eksploracji''.
Właśnie na ten aspekt AI Act w jednym ze swoich artykułów zwraca uwagę - w artykule 53 zobowiązuje producentów modeli generatywnej sztucznej inteligencji, ujmując rzecz najprościej do tego, aby podczas trenowania swoich algorytmów bacznie przestrzegali zakazu opt-outu.
Cała sztuka polega na tym, żeby zarówno AI Office, czyli Urząd do Spraw Sztucznej Inteligencji powołany w Brukseli, oraz lokalne krajowe urzędy, które będą musiały być powołane w krajach unijnych, bacznie przyglądały się praktykom producentów, dostawców dużych modeli generatywnej sztucznej inteligencji, czy rzeczywiście działają zgodnie z prawem i respektują zakaz trenowania na danych.