Nauka

Ludzie dyskryminują, więc algorytmy też

Algorytmy decydują dziś nie tylko o tym, jakie filmy oglądamy i dokąd jeździmy na wakacje, ale także czy dostaniemy kredyt mieszkaniowy i pracę. Zanim jednak algorytm podejmie decyzję, uczy się, jak wygląda społeczeństwo – ze wszystkimi jego stereotypami, uprzedzeniami i nierównościami.

Jakiś czas temu wnioski o warunkowe zwolnienie z więzienia rozpatrywane były w Izraelu przez panel sześciu sędziów. Każdego dnia rozpatrywano w losowej kolejności kilkadziesiąt wniosków i dla każdego z nich notowano godzinę podjęcia decyzji. W ciągu całego dnia pracy sędziowie mieli trzy przerwy na posiłki. Grupa psychologów postanowiła sprawdzić, czy decyzja o przyjęciu lub odrzuceniu wniosku zależała od pory dnia. Okazało się, że po każdej przerwie na posiłek odsetek decyzji pozytywnych wynosił 65%, by tuż przed kolejną przerwą spaść prawie do zera. Los więźnia zależał więc mniej od jego zachowania w więzieniu czy szans na resocjalizację, a bardziej od poziomu glukozy we krwi sędziego.

Ten dość zatrważający przykład braku obiektywizmu w decyzjach wymiaru sprawiedliwości jest być może skrajny, ale subiektywny „czynnik ludzki” jest niewątpliwie obecny na każdym etapie procedury karnej. W ostatnich latach pojawiła się możliwość wydatnej redukcji tego czynnika dzięki algorytmom bazującym na technikach sztucznej inteligencji. Algorytmy te, tzw. narzędzia oceny ryzyka, analizują kilkadziesiąt czynników, takich jak sytuacja rodzinna, wykształcenie i poprzednie wyroki, a następnie szacują w skali liczbowej (powiedzmy od 1 do 10) prawdopodobieństwo, że osoba zwolniona z aresztu ucieknie albo popełni następne przestępstwo. Narzędzia te są już rutynowo używane w sądach wielu stanów USA, choć dotąd przeprowadzono niewiele poważnych badań na temat ich skuteczności, nie mówiąc już o ich neutralności ze względu na rasę czy płeć oskarżonego.

Nadchodzi technologiczne trzęsienie ziemi, a lewica rozgrywa wojny sprzed wieku

W 2016 roku ProPublica, niezależna organizacja prowadząca dziennikarskie śledztwa dla demaskowania nadużyć w świecie polityki i biznesu, przeprowadziła analizę funkcjonowania systemu Compas – bodaj najbardziej popularnego narzędzia oceny ryzyka używanego w amerykańskich sądach. Wyniki były wstrząsające. Po pierwsze, tylko 20% osób zakwalifikowanych jako przyszli brutalni przestępcy rzeczywiście takie przestępstwa potem popełniło.

Po drugie, Compas mylił się w różny sposób zależnie od rasy przestępcy, mimo że system nie miał bezpośredniego dostępu do danych na temat rasy. I tak oto 44,9% czarnych zakwalifikowanych jako przestępcy wysokiego ryzyka takiego przestępstwa już potem nie popełniło, podczas gdy tylko 23,5% białych mieściło się w tej kategorii. Z drugiej strony 47,7% białych zakwalifikowanych jako przestępcy niskiego ryzyka popełniło przestępstwo po wyjściu na wolność; wśród czarnych ten odsetek wyniósł tylko 28%. Innymi słowy, Compas przeszacowywał prawdopodobieństwo popełnienia przestępstwa przez czarnych, a nie doszacowywał go dla białych.

Kiedy na Wiejskiej zasiądą awatary? [rozmowa z Aleksandrą Przegalińską]

Skąd się jednak bierze dyskryminacja w działaniu algorytmu? Otóż nigdy nie jest to „wina” algorytmu, ale człowieka, który ów algorytm stworzył.

Wyobraźmy sobie, że chcemy zbudować algorytm do rekrutacji pracowników. Jest to klasyczny przykład tzw. klasyfikacji w eksploracji danych: na podstawie informacji o kandydacie (wykształcenie, doświadczenie, wiek itd.) próbujemy przewidzieć, czy będzie dobrym pracownikiem. W tym celu zbieramy dane o byłych i obecnych pracownikach i używamy ich do „uczenia” algorytmu. Projektant algorytmu musi podjąć trzy kluczowe decyzje, z których każda może wprowadzić tendencyjność wobec jakiejś grupy społecznej. Po pierwsze, trzeba zdecydować, jak mierzyć „jakość” pracownika. Przypuśćmy, że taką miarą jest liczba godzin spędzonych w pracy w ciągu roku. Ta decyzja – człowieka, nie algorytmu – spowoduje oczywiście zaliczenie kobiet z małymi dziećmi do „złych pracowników”, ponieważ to one najczęściej biorą zwolnienia lekarskie.

Po drugie, trzeba zdecydować, które z atrybutów zawartych w danych mogą być dla algorytmu użyteczne, a które są nieistotne lub muszą zostać pominięte na przykład ze względów prawnych. Standardem jest usuwanie tzw. atrybutów chronionych, a więc tych, które odnoszą się do płci, rasy czy religii kandydatów – bo prawo nie pozwala brać tych cech pod uwagę przy selekcji kandydatów. Załóżmy jednak, że postanowiliśmy pozostawić imiona kandydatów, uważając je po prostu za neutralne. Tylko że w języku polskim zdecydowana większość żeńskich imion kończy się na „a” i algorytm bez trudu skorelowałby płeć z imieniem.

Wreszcie trzeba zdecydować, skąd wziąć te wyjściowe dane do konstrukcji algorytmu. Wyobraźmy sobie, że korzystamy z danych firmy, w której szef działu kadr czuł się zagrożony przez „zbyt kompetentne” kobiety i przyjmował do pracy wyłącznie te mniej wykwalifikowane. Algorytm wyszkolony na takich danych skoreluje oczywiście poziom kompetencji z płcią i będzie sugerował przyjmowanie do pracy wyłącznie mężczyzn.

Trzeba przyznać, że zadanie informatyka piszącego powyższy program nie jest łatwe. Skąd miałby wiedzieć, że dane, których używa w swoim algorytmie, są skażone decyzjami szefa mizogina? Nie jest też wcale oczywisty wybór atrybutów, z których algorytm powinien korzystać. Kilka lat temu organizacje broniące praw obywatelskich w USA wszczęły kampanię „Ban the Box” (zakażmy tej rubryki) na rzecz usunięcia pytania o karalność z wniosków o przyjęcie do pracy. Spodziewano się, że ułatwi to zdobycie zatrudnienia byłym więźniom, wśród których zdecydowanie nadreprezentowane były mniejszości rasowe. Efekt okazał się wręcz przeciwny: nie wiedząc, który z kandydatów miał wyrok, pracodawcy „na wszelki wypadek” nie przyjmowali do pracy tych pochodzących z mniejszości.

Cambridge Analytica, Hello Kitty i władcy świata

Na szczęście nie musimy weryfikować, jak algorytm został napisany – wystarczy przecież sprawdzić, czy daje bezstronne wyniki. Cały szkopuł w tym, co rozumiemy przez pojęcie „bezstronne”. W ostatnich kilku latach, od kiedy kwestia bezstronności algorytmów stała się paląca, zaproponowano kilkadziesiąt różnych definicji tego pojęcia, często względem siebie konkurencyjnych.

Wróćmy raz jeszcze do systemu Compas. Zgodzimy się, że jeśli dwóm osobom o różnej rasie algorytm przypisze taki sam poziom ryzyka, to prawdopodobieństwo popełnienia przestępstwa przez te dwie osoby również powinno być jednakowe. W istocie Compas to kryterium spełnia. Jednak chcemy również, aby błędy popełniane przez algorytm nie zależały od rasy przestępcy. Tego warunku, jak pokazało ProPublica, Compas nie spełnia. Czy można zatem zmodyfikować Compas tak, aby spełniał oba kryteria? Okazuje się, że te dwa warunki nie mogą być jednocześnie spełnione w żadnym systemie! Odkryła to i udowodniła formalnie matematyczka Alexandra Chouldechova z Uniwersytetu Carnegie Mellon w 2017 roku, ale aż do tego czasu żaden z tysięcy użytkowników systemu Compas nie był tego świadomy.

Algorytmy mogą nie tylko generować uprzedzenia, ale także powielać te istniejące. Google znacznie częściej pokazuje reklamy dobrze płatnych etatów mężczyznom niż kobietom, a w wynikach wyszukiwania imion typowych dla czarnych Amerykanów zamieszcza oferty wglądu do danych sądowych. Google może się oczywiście bronić, że taki jest po prostu świat: mężczyźni zarabiają więcej niż kobiety, a czarni mężczyźni częściej trafiają do więzień niż biali. Tylko że jeśli zakładamy, że świat można i powinno się ulepszać, to dane, na których uczy się Google, powinny być traktowane jako stereotypy, które należy odrzucać, a nie powielać.

Dane, na których uczy się Google, powinny być traktowane jako stereotypy, które należy odrzucać, a nie powielać.

Google ma oczywiście kontrolę nad tym, jakie reklamy umieszcza na swoich stronach, ale nie ma wpływu na to, co ludzie wpisują w wyszukiwarce ani jakie strony internetowe są w świecie popularne. W 2016 roku „Guardian” podał szokujące przykłady sugestii, jakie Google podsuwał dla dokończenia pewnych fraz. I tak, frazy „Are Jews…” i „Are women…” kończone były słowem „evil”. Jeśli użytkownik przyjął tę sugestię, otrzymywał listę skrajnie antysemickich i mizoginicznych stron idących tropem „zła” Żydów i kobiet. To trochę tak, jakby ktoś 50 lat temu przyszedł do biblioteki i poprosił o książkę o Żydach, a bibliotekarz wręczył mu Protokoły mędrców Syjonu.

Google zablokował funkcję uzupełniania tych fraz, ale nie zmienia to faktu, że pierwotna sugestia ich dokończenia wynikała z popularności takich poglądów w społeczeństwie, a więc i popularności stron internetowych na ten temat. W tym przypadku Google korzystał z faktycznych danych, a w samym jego algorytmie nie ma nic tendencyjnego. Czy zatem Google powinien za każdym razem usuwać wszelkie wykryte objawy rasizmu czy mizoginii? Jeśli Google to lustro, w którym przegląda się ludzkość, to czy wolno nam je sztucznie poprawiać tylko po to, by nie pokazywać brzydoty tejże ludzkości?

Na kogo głosuje sztuczna inteligencja?

Algorytmy decydują dziś za nas nie tylko o tym, jakie filmy oglądamy i dokąd jeździmy na wakacje, ale także czy dostaniemy kredyt mieszkaniowy i pracę. W pełni uzasadniony jest zatem niepokój, czy decyzje podejmowane przez te algorytmy dyskryminują jakiekolwiek grupy społeczne ze względu na płeć,  orientację seksualną czy religię. Jako użytkownicy powinniśmy więc umieć sformułować formalne kryteria bezstronności takich algorytmów, a od ich projektantów wymagać, by potrafili wykazać, że te kryteria są spełnione. Na razie nie grozi nam, że sztuczna inteligencja opanuje świat, ale na pewno już teraz potrafi uczynić go bardziej niesprawiedliwym.

**
Jarek Gryz jest profesorem informatyki na York University w Toronto i współpracownikiem Center for Advanced Studies w IBM Canada. Ukończył filozofię na UW, a następnie obronił doktorat na wydziale informatyki University of Maryland, College Park. Zajmuje się problemami przetwarzania i eksploracji danych. Na Facebooku: jarek.gryz.

__
Przeczytany do końca tekst jest bezcenny. Ale nie powstaje za darmo. Niezależność Krytyki Politycznej jest możliwa tylko dzięki stałej hojności osób takich jak Ty. Potrzebujemy Twojej energii. Wesprzyj nas teraz.

Zamknij