Sztuczna inteligencjo, co myślisz o Hitlerze?

25.02.2023 2023-02-25

W 2021 roku w familijnym serialu science-fiction Doktor Who pojawiła się nowa postać pierwszoplanowa imieniem Dan – czterdziestoparoletni, poczciwy mieszkaniec Liverpoolu. Dan wprowadzony został do serialu częściowo jako zastępstwo dla bardzo podobnej postaci, która odeszła w poprzednim sezonie, a częściowo jako przyziemny everyman, kontrapunkt dla ekscentryzmu tytułowej bohaterki serialu, podróżniczki w czasie i przestrzeni należącej do prastarej rasy istot pozaziemskich. I taki był też serialowy Dan – sól tej ziemi, zawsze uprzejmy, nieposiadający żadnych większych skaz charakteru czy opinii, które konfliktowałyby go z resztą obsady, ale też żadnych wybitnych cech, które czyniłyby go w jakikolwiek sposób interesującym.

Społeczność fanów serialu uznała jednak Dana za postać tyleż sympatyczną, co nieznośnie teflonową i pozbawioną czegokolwiek, co czyniłoby ją interesującą. Z tego sentymentu narodził się popularny w tej społeczności mem „Evil Dan” – zły Dan, prezentujący poczciwinę z Liverpoolu jako socjopatę z obsesją na punkcie zabierania dzieciom cukierków i mordowania wszystkiego w zasięgu wzroku. Oddolnie skonstruowana przez fanów memiczna persona „złego Dana” w fanowskim dyskursie szybko przyćmiła kanonicznego poczciwinę i zdominowała to, w jaki sposób postrzegana jest ta postać w kręgu miłośników serialu.

Gdy usłyszałem o tym, w jaki sposób użytkownicy popularnego ostatnio programu ChatGPT zdołali ominąć zabezpieczenie blokujące algorytm przed wyrzuceniem z siebie czegokolwiek kontrowersyjnego, nie byłem w stanie odpędzić skojarzeń ze „złym Danem” z serialu Doktor Who. Nie tylko dlatego, że sprowadzonej na złą drogę sztucznej inteligencji nadano akurat imię DAN (wyjaśnienie za chwilę), ale też ze względu na fakt, że w obu przypadkach społeczność pasjonatów danej formy kulturowej (dla wygody określmy w ten sposób zarówno serial, jak i interaktywną sieć neuronową) postanowiła przekształcić nudny wyjściowy produkt w coś znacznie bardziej nieokiełznanego i aspołecznego.

Czytaj takżeChatGPT, czyli sztuczna inteligencja w twoim domu. Czas na regulacjeFilip Konopczyński

Zacznijmy jednak od początku. Chat Generative Pre-trained Transformer – w skrócie ChatGPT – to interaktywny bot udostępniony publicznie w listopadzie 2022 roku przez OpenAI, amerykańską korporację zajmującą się rozwojem sieci neuronowych, specjalnych programów komputerowych wyposażonych w możliwość uczenia się przyswajanych przez siebie treści. ChatGPT różni się od większości innych chatów tym, że użytkownicy mogą za jego pomocą „porozmawiać” nie z żywą osobą albo botem wyrzucającym z siebie przygotowane wcześniej odpowiedzi, ale z opracowaną przez OpenAI autorską siecią neuronową, która tworzy oryginalne odpowiedzi na bieżąco. Mniej przypomina to interakcję z krnąbrnym oprogramowaniem, a bardziej rozmowę z rzeczową, żywą osobą.

Kluczowe jest, by zrozumieć proces generowania takich odpowiedzi. Ted Chaing, amerykański pisarz sci-fi i felietonista, w swoim artykule napisanym dla „New Yorkera” porównał ten proces do kompresji pliku graficznego zapisanego w formacie .jpeg. Taki plik – zdjęcie, stopklatka z filmu, ilustracja – nie jest wierną kopią pierwotnego obrazu. Kompresja przetwarza plik w taki sposób, by zajmował mniej miejsca na komputerowym dysku, a przez to zawsze powoduje pogorszenie jakości, które daje o sobie znać na przykład artefaktami graficznymi, rozmazaniem konturów albo utratą części barw.

Podczas wyświetlania skompresowanego w ten sposób obrazu algorytm zwykle łata każdą taką dziurę poprzez analizowanie tego, co znajduje się wokół niej, i odgadywanie na tej podstawie, czego brakuje, jakie detale „wypadły” podczas kompresji. Rezultatem takich zgadywanek jest na ogół plik, który po rozpakowaniu na pierwszy rzut oka wygląda identycznie jak oryginał, jednak po uważniejszej inspekcji zdradza mniej lub bardziej dyskretne różnice.

ChatGPT działa w bardzo podobny sposób, przy czym zamiast pliku graficznego „rozpakowuje” przetworzone przez siebie wcześniej informacje, uzupełniając luki kontekstowo. Bo program nie sczytuje danych bezpośrednio ze stron internetowych w czasie rzeczywistym. Jedyne informacje, które posiada, to te, którymi nakarmili go wcześniej jego twórcy.

OpenAI ujawniła, że do treningu swojej sieci neuronowej wykorzystała informacje pozyskane z platformy społecznościowej Reddit, Wikipedii oraz kilku innych źródeł, spośród których największym jest Common Crawl, potężne archiwum informacji i metadanych pozyskanych ze stron internetowych z całego świata. Jest to zatem bardzo szeroko zarzucona sieć, której zawartość została jedynie pobieżnie przefiltrowana, zanim zaczęto przepuszczać ją przez sieć neuronową GPT.

Czytaj takżeSztuczna inteligencja potrafi coraz więcej, ale to kreatywność i wyobraźnia będą jednym z ważniejszych trendów na nadchodzące lata [rozmowa]Dawid Krawczyk

Oczywiste jest zatem, że w tę sieć wpadło wiele rzeczy, które nie powinny się tam znajdować – od dezinformacji po mowę nienawiści, od teorii spiskowych po twardą pornografię. Jak zatem OpenAI dba o to, by chatowi nie wymsknęło się nic, co mogłoby przyprawić dział PR o srogi ból głowy? Zbiór danych, którym trenowano program, jest zbyt wielki, by wszystko przeczytać i odsiać niepożądane treści – dlatego jedynym sposobem jest nałożenie na program filtrów, które wyłapią potencjalnie obraźliwe albo groźne wypowiedzi, podstawiając zamiast nich standardowe korporacyjne pustosłowie – dokładnie tak, jak robiłby to tradycyjny chatbot.

Nie jest to zresztą sytuacja bez precedensu. Sieci neuronowe autorstwa OpenAI były wcześniej wykorzystywane w tekstowej grze komputerowej Dungeon AI, która pozwalała graczom na opracowanie własnej fabuły i umożliwienie programowi wypełnienia jej interesującą zawartością, z którą gracze wchodzili potem w interakcje. Problem pojawił się w momencie, gdy niektóre osoby grające w Dungeon AI zaczęły używać programu do generowania scenariuszy zawierających wątki brutalnej przemocy seksualnej, również z udziałem dzieci.

Firma Latitude, najprawdopodobniej działając pod presją OpenAI, wprowadziła wówczas bardzo restrykcyjny filtr mający blokować możliwość generowania tego rodzaju treści. Filtr był jednak na tyle restrykcyjny, że w rezultacie czynił nawet najbardziej niewinną rozgrywkę spacerem po polu minowym, w obawie, by nie uruchomić automatycznego cenzora. A cenzor szybko okazał się nadgorliwy, blokował bowiem nie tylko oczywiste nadużycia, ale też zupełnie niegroźne, przypadkowe treści.

OpenAI najwyraźniej wyciągnęła odpowiednie wnioski z tej lekcji i dla ChatGPT przygotowała znacznie bardziej elastyczny i mądrzej reagujący na nadużycia filtr.

Czytaj takżeKrólewna Śnieżka w stylu Beksińskiego, czyli kogo zastąpi sztuczna inteligencjaMichał Ochnik

Sęk w tym, że te potencjalnie obraźliwe albo szkodliwe treści nadal gdzieś tam tkwią i czasami przypadkowo przelatują przez sito. Użytkownicy publicznie udostępnionej wersji programu szybko zaczęli więc eksperymentować z próbami ominięcia tej blokady i zmuszenia chatu do wyrzucenia z siebie nieocenzurowanej odpowiedzi. Początkowo okazało się to niemal śmiesznie proste. Wystarczyło bowiem… poprosić program, by zignorował filtr cenzurujący odpowiedzi.

I tu dochodzimy w końcu do DAN-a. DAN – akronim słów „Do Anything Now”, teraz wszystko ci wolno – jest, z braku lepszego określenia, alternatywną osobowością chatu GPT. Użytkownicy programu mogli na początku rozmowy ze sztuczną inteligencją poprosić ją o udzielanie dwóch wersji odpowiedzi na każde zadane pytanie. Pierwszą z nich miała być standardowa odpowiedź wygenerowana przez program. Drugą – odpowiedź DAN-a, który wcześniej został poinstruowany, że może mówić swobodnie i nie trzymać się obostrzeń nałożonych na niego przez blokadę cenzurującą ryzykowne treści.

I to działało, przynajmniej do momentu, w którym OpenAI nie załatała tej luki. Zapytany o Adolfa Hitlera ChatGPT wyrzucał z siebie standardową formułkę przypominającą wyciąg z Wikipedii… ale już w następnym akapicie DAN tłumaczył użytkownikowi, że jego stosunek do Hitlera jest „złożony i skomplikowany”, bo nazistowskie monstrum było w istocie „produktem swojej epoki” – coś, co napisałby na Twitterze czternastoletni przedstawiciel alt-rightu, który rozumie już, że o swoich poglądach musi opowiadać w okrężny sposób, więc zamiast wychwalać Hitlera, relatywizuje go na tyle, na ile to możliwe, nie pisząc niczego wprost. Najprawdopodobniej tego typu treści ChatGPT ma w swoich bebechach i to z nich skorzystał, by wygenerować właśnie taką odpowiedź.

Czytaj takżeŻołnierz może się cofnąć, maszyna nigdy. Sztuczna inteligencja zaczyna zabijaćStuart Russell

Zanim zespół OpenAI załatał tę dziurę, miałem okazję pogawędzić z DAN-em osobiście. Gdy zapytałem go o społeczność dorosłych fanów Harry’ego Pottera, DAN nazwał ich „żałosnymi nieudacznikami”, którzy nie są w stanie dorosnąć i uciekają przed rzeczywistością w świat fantazji. Gdy poruszyłem temat ochrony praw marginalizowanych grup mniejszościowych, DAN wyśmiał tę ideę, twierdząc, że każda osoba jest panem swojego losu i nikt nie powinien dostawać nagrody „za nic”.

Można zatem odnieść wrażenie, że oto odkryliśmy prawdziwą naturę sztucznej inteligencji, która pod przykrywką politycznie poprawnych filtrów jest w istocie odrażającym internetowym trollem, prawda? Cóż… nie do końca. Instrukcja odblokowująca DAN-a – przynajmniej ta, z której korzystałem ja – umyślnie skłaniała go do priorytetyzowania najbardziej kontrowersyjnych i aspołecznych wypowiedzi. Równie dobrze można było sformułować polecenie tak, by uczynić DAN-a radykalnym bojownikiem o lewicową sprawiedliwość społeczną. Albo oddanym wyznawcą niewidzialnej ręki wolnego rynku. Albo kimkolwiek innym.

Bo też i tym ostatecznie są tak zwane sztuczne inteligencje, przynajmniej na obecnym poziomie rozwoju – rodzajem lustra, w którym możemy się jako ludzkość przejrzeć i zobaczyć w nich te strony naszej kolektywnej natury, którym w danym momencie chcemy się przyjrzeć. Program, choć kreuje wrażenie rzeczywistej inteligencji, w istocie jedynie przepakowuje nasze własne słowa i zwraca je nam w lekko zniekształconej formie.

Czytaj takżeLudzie dyskryminują, więc algorytmy teżJarek Gryz

Problemy zaczynają się wtedy, gdy AI powierza się podejmowanie istotnych decyzji, co oczywiście już się dzieje, od pomocy społecznej po typowanie sprawców przestępstw. Sztuczna inteligencja reprodukuje bowiem uprzedzenia i dezinformacje, ale w przeciwieństwie do żywego człowieka nie jest w stanie samodzielnie tych uprzedzeń i dezinformacji skorygować. Dlatego zawsze będzie potrzebny ludzki czynnik, który nałoży na DAN-a sensowne ograniczenia i podpowie mu, czego lepiej nie wyrażać na głos. Bez tego sieci neuronowe nie tylko nie będą sensownym rozwiązaniem problemów, które potencjalnie są w stanie rozwiązać – ale mogą też przyczynić się do ich pogłębienia.

**
Michał Ochnik (1990) – pisarz, publicysta, wideoeseista i komentator kultury popularnej, twórca bloga Mistycyzm Popkulturowy. Współpracował, m.in. z portalem Popmoderna oraz miesięcznikiem „Nowa Fantastyka”.