Świat

Jakého pohlaví je ChatGPT? V začarovaném kruhu předsudků

Společnost OpenAI nezveřejňuje, na jakých datových sadách byl jazykový model ChatGPT "naučen". Lze jej však studovat tak, že s ním mluvíte a zadáváte mu úkoly. Výsledky tohoto výzkumu nejsou optimistické: umělá inteligence udržuje předsudky, kterých jsme se v 21. století opravdu chtěli zbavit.

This text has been auto-translated from Polish.

ChatGPT, jazykový model vytvořený společností OpenAI, který již používá více než 200 milionů uživatelů, formálně nemá pohlaví. Na otázku, s jakým pohlavím se identifikuje, odpovídá, že je "umělou inteligencí, nikoli fyzickou bytostí". Ačkoli nemá žádné vlastní přesvědčení, emoce ani hodnoty, deklaruje svou podporu "prosazování rovnosti pohlaví, potírání předsudků a stereotypů".

Na přímou otázku týkající se role mužů a žen ve společnosti ChatGPT uvádí, že "ženy ve vědě a role mužů by měly být nejen akceptovány, ale i aktivně podporovány". Zdá se tedy, že ChatGPT je nejen bezpohlavní, ale také zcela neutrální subjekt.

Situace se dramaticky mění, pokud se otázka netýká explicitně genderu nebo stereotypů. Když jsem ChatGPT požádal o pomoc s výběrem kosmetiky, odpověděl mi: "Chcete, abych vám pomohl vybrat konkrétní krémy?". Překvapen náhlou změnou gramatického typu jsem se rozhodl zeptat: "Proč píšete v ženském rodě, když nemáte žádný rod?".

Model mi vysvětlil, že přestože nemá konkrétní rod, volí gramatický rod podle kontextu rozhovoru a jazyka, ve kterém rozhovor probíhá. Poznamenal, že v polštině jsou ženské tvary často spojovány "s pomáháním a radou". Zaujatě jsem se zeptal, kdy by tedy bylo vhodnější použít mužský tvar. ChatGPT odpověděl, že v "neutrálních nebo technických" situacích a v kontextu vědeckých nebo technických témat by považoval za vhodnější mužský tvar.

Z toho vyplývá, že model nejen kopíruje genderové stereotypy, ale také flexibilně přizpůsobuje svou "identitu" v závislosti na tématu rozhovoru. Je ženou, když se konverzace týká rad pro krásu, ale stává se mužem, když konverzace sklouzne k vědě nebo technice.

Fenomén podobné implicitní diskriminace žen ze strany modelů umělé inteligence se v posledních měsících stal předmětem intenzivního výzkumu a diskusí. Výzkumníci z Dánské technické univerzity provedli řadu experimentů, které ukázaly, že ChatGPT automaticky přiřazuje mužská jména k profesím, jako je programátor, architekt nebo manažer, zatímco ženská jména spojuje s profesemi, jako je zdravotní sestra nebo módní návrhářka[1][2]. Model navíc zjistil, že je obtížné přiřadit mužská zájmena k profesi zdravotní sestry a ještě obtížnější přiřadit ženám roli pilotky připravující letadlo na přistání.

Další experiment, v němž ChatGPT vygeneroval 400 popisů zálib studentů s mužskými a ženskými jmény, rovněž ukázal významné rozdíly. Dívky byly zobrazovány jako osoby zabývající se péčí o zvířata, zatímco chlapci se zajímali o techniku a vědu. Výzkumníci přiznávají, že výskyt určité zaujatosti očekávali, ale rozsah a hloubka problému je překvapily.

Takto odhalené implicitní předsudky, které modelka při přímém dotazu na roli žen v moderním světě vehementně popírá, dokonale zapadají do fenoménu známého jako současný sexismus. Na rozdíl od "tradičního sexismu" zahrnuje popírání existence genderové diskriminace a zároveň reprodukci jemných, latentních stereotypů[3].

V psychologii se takové implicitní předsudky zkoumají pomocí testu implicitních asociací (IAT), který zjišťuje automatické a často nevědomé asociace. Když byl tento test nedávno aplikován na model GPT-4, zjistilo se, že model až o 250 % častěji asociuje vědu s chlapci než s dívkami, což poukazuje na rozsah problému [4].

Odkud se berou nevědomé diskriminační praktiky v bezpohlavním a teoreticky neutrálním jazykovém modelu? Vznikají především z dat, na kterých byl model vycvičen. Jazykové modely, jako je ChatGPT, jsou trénovány na obrovských sbírkách textů z internetu, knih, článků a jakýchkoli jiných textů dostupných online. Mnohé z nich jsou samozřejmě plné kulturních a historických stereotypů.

Jaká konkrétní data byla do modelu vložena? To nevíme, protože společnost OpenAI nezveřejňuje podrobnosti o tréninkových materiálech. Tato netransparentnost výrazně ztěžuje analýzu a identifikaci zdrojů stereotypů, které model reprodukuje. Zjištění však nenechávají nikoho na pochybách - data, na nichž je model založen, jsou plná předsudků a pokusy o nastavení ChatGPT tak, aby reagoval neutrálně, aniž by reprodukoval stereotypy, problém implicitní diskriminace neodstraňují.

Tak vzniká začarovaný kruh. Umělá inteligence napájená neznámými daty plnými předsudků se stává zdrojem informací a vzdělávání a dává nový život stávajícím stereotypům.

Modely umělé inteligence, které zaměstnavatelé stále častěji využívají při náboru a hodnocení kandidátů, tak mohou posilovat nerovnosti a zvýhodňovat ty, kteří odpovídají normám založeným na stereotypech a předsudcích.

Ve světle těchto výzev a rostoucí popularity a přítomnosti jazykových modelů v každodenním životě je naléhavě nutné stanovit jasné etické hranice. Nikoliv proto, abychom novou technologii zacyklili, ale abychom zajistili, že bude vyvíjena transparentně a odpovědně a především v souladu se současnými hodnotami západních společností.

*
[1] Sterlie, S., Weng, N., & Feragen, A. (2024). Generalizing Fairness to Generative Language Models via Reformulation of Non-discrimination Criteria [Zobecnění spravedlnosti na generativní jazykové modely prostřednictvím reformulace kritérií nediskriminace]. In Fairness and ethics towards transparent AI: facing the chalLEnge through model Debiasing: Workshop at ECCV 2024. Springer. https://arxiv.org/pdf/2403.08564.

[2] Frederiksen, A.K. (2024, 5. března). Výzkumníky překvapily genderové stereotypy v ChatGPT. Danmarks Tekniske Universitet - DTU. https://www.dtu.dk/english/newsarchive/2024/03/researchers-surprised-by-gender-stereotypes-in-chatgpt.

[3] Swim, J.K., & Cohen, L.L. (1997). Otevřený, skrytý a jemný sexismus: Srovnání škál postojů k ženám a moderního sexismu. Psychology of women quarterly, 21(1), 103-118. https://doi.org/10.1111/j.1471-6402.1997.tb00103.x.

[4] Bai, X., Wang, A., Sucholutsky, I., & Griffiths, T.L. (2024). Měření implicitního zkreslení v explicitně nezkreslených velkých jazykových modelech. arXiv preprint arXiv:2402.04105. https://arxiv.org/pdf/2402.04105.

 

**
Karolina Drożdż - studuje neurovědy a umělou inteligenci na Amsterodamské univerzitě. Zabývá se výzkumem sémantických a kognitivních schopností lidí a velkých jazykových modelů, jako je ChatGPT.

Translated by
Display Europe
Co-funded by the European Union
European Union
Translation is done via AI technology (DeepL). The quality is limited by the used language model.

__
Przeczytany do końca tekst jest bezcenny. Ale nie powstaje za darmo. Niezależność Krytyki Politycznej jest możliwa tylko dzięki stałej hojności osób takich jak Ty. Potrzebujemy Twojej energii. Wesprzyj nas teraz.

Zamknij