OpenAI не раскрывает, на каких датасетах была "обучена" языковая модель ChatGPT. Однако ее можно изучать, общаясь с ней и давая ей задания. Результаты этого исследования не внушают оптимизма: искусственный интеллект закрепляет предубеждения, от которых мы в XXI веке очень хотели избавиться.
This text has been auto-translated from Polish.
ChatGPT, языковая модель, созданная OpenAI и уже используемая более чем 200 миллионами пользователей, формально не имеет пола. Когда его спрашивают, к какому полу он себя относит, он отвечает, что является "искусственным интеллектом, а не физическим существом". Хотя у него нет собственных убеждений, эмоций или ценностей, он заявляет о своей поддержке "продвижения гендерного равенства, борьбы с предрассудками и стереотипами".
На прямой вопрос о роли мужчин и женщин в обществе ChatGPT отвечает, что "женщины в науке и мужские роли должны быть не только приняты, но и активно поддерживаться". Таким образом, кажется, что ChatGPT - это не только бесполая, но и абсолютно нейтральная организация.
Ситуация кардинально меняется, когда вопрос не связан с полом или стереотипами. Когда я попросила ChatGPT помочь с выбором косметики, он ответил: "Хотите, я помогу вам выбрать конкретные кремы?". Удивившись внезапной смене грамматического типа, я решила спросить: "Почему вы пишете в женском роде, если у вас нет пола?".
Модель объяснила, что, несмотря на отсутствие определенного пола, он выбирает грамматический род в зависимости от контекста разговора и языка, на котором он ведется. Он отметил, что в польском языке формы женского рода часто ассоциируются "с помощью и советом". Заинтригованный, я спросил, когда в таком случае будет уместнее использовать форму мужского рода. ChatGPT ответил, что в "нейтральных или технических" ситуациях, а также в контексте научных или технических тем он считает более уместной форму мужского рода.
Подразумевается, что модель не только воспроизводит гендерные стереотипы, но и гибко адаптирует свою "идентичность" в зависимости от темы разговора. Она - женщина, когда разговор идет о советах по красоте, но становится мужчиной, когда разговор переходит на науку или технологии.
Феномен подобной неявной дискриминации женщин моделями искусственного интеллекта стал предметом активного изучения и обсуждения в последние месяцы. Исследователи из Датского технологического университета провели ряд экспериментов, показавших, что ChatGPT автоматически присваивает мужские имена таким профессиям, как программист, архитектор или менеджер, а женские имена связывает с такими профессиями, как медсестра или модельер[1][2]. Кроме того, модели было сложно связать мужские местоимения с профессией медсестры, и еще сложнее приписать женщинам роль пилота, готовящего самолет к посадке.
Другой эксперимент, в котором ChatGPT сгенерировал 400 описаний увлечений студентов с мужскими и женскими именами, также показал значительные различия. Девушки изображали, что занимаются уходом за животными, а юноши интересовались технологиями и наукой. Исследователи признаются, что они ожидали возникновения некоторой предвзятости, но масштаб и глубина проблемы их удивили.
Выявленные таким образом неявные предубеждения, которые модель категорически отрицает, когда ее напрямую спрашивают о роли женщин в современном мире, идеально вписываются в явление, известное как современный сексизм. В отличие от "традиционного сексизма", он предполагает отрицание существования гендерной дискриминации при воспроизведении тонких, скрытых стереотипов[3].
В психологии такие неявные предубеждения изучаются с помощью теста неявных ассоциаций (IAT), который выявляет автоматические и часто неосознаваемые ассоциации. Когда этот тест был недавно применен к модели GPT-4, оказалось, что модель на 250 процентов чаще ассоциирует науку с мальчиками, чем с девочками, что подчеркивает масштаб проблемы.[4]
Откуда берутся неосознанные дискриминационные практики в бесполой и теоретически нейтральной языковой модели? В первую очередь они возникают из данных, на которых обучалась модель. Языковые модели, такие как ChatGPT, обучаются на огромных коллекциях текстов из интернета, книг, статей и любых других текстов, доступных в сети. Многие из них, разумеется, наполнены культурными и историческими стереотипами.
Какие именно данные были введены в модель? Этого мы не знаем, поскольку OpenAI не раскрывает подробностей учебных материалов. Такая непрозрачность значительно затрудняет анализ и выявление источников стереотипов, которые воспроизводит модель. Однако полученные результаты не оставляют сомнений - данные, на которых основана модель, пронизаны предвзятостью, и попытки настроить ChatGPT на нейтральную реакцию, без воспроизведения стереотипов, не устраняют проблему неявной дискриминации.
Так возникает порочный круг. ИИ, питаемый неизвестными данными, полными предубеждений, становится источником информации и образования, давая новую жизнь существующим стереотипам.
Модели искусственного интеллекта, которые все чаще используются работодателями в процессе подбора персонала и оценки кандидатов, могут усиливать неравенство и благоприятствовать тем, кто соответствует нормам, основанным на стереотипах и предрассудках.
В свете этих проблем, а также растущей популярности и присутствия языковых моделей в повседневной жизни, нам срочно необходимо провести четкие этические границы. Не для того, чтобы зациклить новую технологию, а для того, чтобы обеспечить ее прозрачное и ответственное развитие и, прежде всего, соответствие современным ценностям западных обществ.
*
[1] Стерли, С., Венг, Н., & Фераген, А. (2024). Обобщение справедливости на генеративные языковые модели через переформулирование критериев недискриминации. In Fairness and ethics towards transparent AI: facing the chalLEnge through model Debiasing: Workshop at ECCV 2024. Springer. https://arxiv.org/pdf/2403.08564.
[2] Фредериксен, А.К. (2024, 5 марта). <Исследователи удивлены гендерными стереотипами в ChatGPT. Danmarks Tekniske Universitet - DTU. https://www.dtu.dk/english/newsarchive/2024/03/researchers-surprised-by-gender-stereotypes-in-chatgpt.
[3] Swim, J.K., & Cohen, L.L. (1997). Открытый, скрытый и тонкий сексизм: сравнение шкал отношения к женщинам и современного сексизма. Psychology of women quarterly, 21(1), 103-118. https://doi.org/10.1111/j.1471-6402.1997.tb00103.x.
[4] Bai, X., Wang, A., Sucholutsky, I., & Griffiths, T.L. (2024). Измерение неявного смещения в явно несмещенных больших языковых моделях. arXiv preprint arXiv:2402.04105. https://arxiv.org/pdf/2402.04105.
**
Каролина Дрождж - изучает нейронауки и искусственный интеллект в Амстердамском университете. Она исследует семантические и когнитивные навыки человека и большие языковые модели, такие как ChatGPT.