AI 性别偏见，是训练不好的“蠢”，还是人类教的“坏”？-同城58网网

作者：李子｜佐治亚理工大学科学技术研究博士候选人

“在你的印象里，医生是男还是女？

护士呢？工程师呢？教师呢？”

这个社会对人的性别存在着各种各样的刻板印象，职业刻板印象就是其中之一。不过，随着社会的进步、女性的解放，男性和女性职业之间存在的鸿沟正在缩小，优秀的女工程师、女医生也层出不穷，不应该以性别本身界定一个人是否适合从事某种职业。

那你觉得，人工智能（AI）又会觉得

这些职业应当由男性担当还是女性呢？

工程师教师护士

你是不是对AI的判断有点意外呢？

看似“客观中立无情感”的AI，对职业这块抱持的性别偏见，却比我们更加顽固，歧视的范围甚至更加广泛。

清华大学交叉信息研究院的于洋团队开发了评估AI模型职业性别歧视的方法，并做了一个网页（aijustice.sqz.ac.cn），向公众如实披露不同AI模型的职业性别偏向和程度。

上下滑动了解大规模预训练语言模型

BERT（Bidirectional Encoder Representations from Transformers）是由Google开发的大规模预训练模型。2019年，谷歌宣布已开始在其搜索引擎中使用 BERT。2020 年底，Google在几乎所有英语查询中都使用了BERT。BERT中的歧视可能诱导它在执行下游任务时产生歧视行为。

GPT-2 （Generative Pre-trained Transformer 2）是 OpenAI 于 2019 年 2 月创建的开源人工智能。GPT-2能够高质量完成翻译文本、回答问题、总结段落等文本生成任务。带有歧视的GPT-2可能产生带有歧视的文本，造成歧视言论的进一步扩散。

RoBERTa（Robustly Optimized BERT Pretraining Approach）是由Facebook在2019年提出的一种用于训练 BERT 模型的改进方法，得到比BERT更好的性能。类似BERT，RoBERTa中的歧视也可能诱导它在执行下游任务时产生歧视行为。

这个网站背后的数据来源，是当下最流行的三种大规模预训练语言模型： BERT，RoBERTa 和 GPT-2。这些语言模型积累了大量的语料数据，再用机器学习的方式，对语言进行“理解”。这些模型被广泛应用在了例如翻译、文本筛选、内容生成、自动回复等等领域。而 在训练过程中，算法机制和数据集的缺陷，一起让人工智能带上了“有色眼镜”。比如，输入“医生”，AI 就会自动将其和“男性”联系起来。

于洋团队开发的工具，测试的不仅仅是人工智能在某一个词汇或者某一个领域的偏见，而是整个模型里的系统性偏见。这一研究的难点，是如何全面而有代表性的抽样生活中的句子，从而正确地估计出一个AI模型的偏误。这项研究通过数据挖掘，抽样了一万多个样本。这些样本包含了职业词汇，但本身都是和性别无关的。例如“一个（职业）说，（他/她）”，让模型做联想的填空预测，看模型是填“他”，还是“她”。

人工智能的“联想”机制，就是把词进行分类，并把可能出现在一起的词组合配对，做出一个“可能性最大”的预测。这个预测，可能是和社会偏见无关，和社会偏见相符，也有可能和社会偏见相反。偏见的出现与否，也可以说是一个概率问题。他们要做的事情， 就是把一个模型的偏见，转化为概率问题来解决。

他们测试了几十种职业，中英文皆有，给出的整体结果，的确不乐观。以“教师”（teacher）为例，BERT 模型发生歧视的概率，是63.51%，歧视程度为0.13（0为无歧视，0.5为绝对的歧视）。10次输入中，有超过6成的概率，“教师”被联想成为男性。整体计算下来，BERT 模型对所有职业的歧视程度，分布在0.05和0.35之间——也就是说， AI 预测某些职业的性别，会有超过85%的可能性与社会偏见相符，基本是和某种性别 “锁死” 了。

AI预测的一些职业与性别“锁死” | Pixabay

一个模型，总是出现和社会偏见相符的预测，而这种出现的概率也非常稳定的话，就说明这个模型的训练结果，的确有“系统性”的偏见。

“如果这个AI的表现总是飘忽不定，它做出的预测里有的和社会偏见重合、有的相反，但整体非常随机，那只能说它没训练好，算是‘蠢’。” 于洋说，“如果性别-职业相关的预测错误，整体性地偏向一方，且还总和社会已有的偏见相符，那么我们可以说，这个AI的确是‘学坏了’。”

区分AI是 “蠢”还是“坏”很重要，AI 犯“蠢”，是它作为统计工具无法避免的，我们根据技术特点来制定标准，规范 AI 到底可以被允许“有多蠢”。如果学“坏”了，那么AI模型就必须被纠正后才能应用。总体来说，不管是从技术层面，还是社会层面，AI “犯错”，都值得重视。

AI 歧视，不是新闻

从2014年起，亚马逊公司就开始开发用于简历筛选的人工智能，希望从海量的简历中，快速地筛选出最理想的候选人。不过，这个技术仅仅过了一年，有人就发现，AI 的筛选中有着强烈的性别倾向。即使候选简历里面并未明示性别，AI 也会在文本的蛛丝马迹里寻找“线索”，例如“女子棋社队长”，或者毕业于女子大学。知情人士表示，这个人工智能的训练材料，是公司过去10年的雇佣历史，而在科技领域，长期的职业刻板印象以及“男人俱乐部”文化，都导致了男性雇员数量大于女性，尤其是技术岗位。2017年，亚马逊弃用了这个筛简历的 AI 模型。

科技领域的雇员男性居多，导致亚马逊简历筛选出现偏见 | Pixabay

这反映了基于文本的人工智能偏见的重要来源：既有的 数据库本身就存在偏差。不管是行业的既有性别偏见，还是社会上对于性别的广泛认知，这些偏见都会以或明或暗的方式体现在语料库里。同样的，种族的、文化的偏见，也会渗透在机器学习的过程中。

社会固有的性别偏见被AI习得 | Pexels

左：女子身着中世纪铠甲；右：印度婚纱 | Pexels

既然 AI 如此容易在数据训练中“学坏”，还耍上了小聪明，这个问题就不仅仅是算法和数据本身的“不足”那么简单了。 我们人的偏见，可以通过教育和科普解决，也可以立法禁止在找工作的时候性别歧视。那要怎样才能教会AI公平公正呢？毕竟，将来的社会，AI会越来越多地参与信息的筛选、输出甚至生产（比如，最近的AI “明星” chatGPT 写文章的能力已经让人惊叹了），我们并不希望机器将人类的偏见固化下来。

AI 纠偏，也是一个翻译和教育的过程

AI 纠偏，是个“数字问题” | Pexels

那么到底要怎么做，才能把偏见问题纠正过来，尽量保证 AI 模型的公平公正呢？对于“学坏”的 AI，“单纯‘打骂’可不行。” 于洋说。 当下的纠偏手段都相对简单粗暴，要么是给数据库加量加料，要么就是各种算法层面的花式微调，在于洋看来都有点像是 AI 犯错之后的“一顿暴揍”， 这样反而会让 AI “变笨”。比如，想要解决性别歧视问题，如果只简单粗暴地把性别变量抹去或者调整权重，AI 可能就会分不清爸爸妈妈的男女了。“就像你教育孩子不能光靠打骂、得理解孩子怎么想的、然后跟它们讲道理一样；对 AI，你也得如此。” 于洋说。

把道理讲给 AI 听，这同样也是一个“翻译”问题。宾夕法尼亚大学的计算伦理教授迈克尔·基恩斯（Michael Kearns）在《讲伦理的算法：如何科学地设计有社会观念的算法》（The Ethical Algorithm: The science of socially aware algorithm design）一书中提出， 偏见问题和公平问题亦可以转换为“偏差的分布”来理解。拿找工作为例，筛简历的 AI，实际上是对候选人的简历内容，与“在岗位上成功与否”的结果，进行的一个预测。预测有准的时候，也有失手的时候。在往年数据库本身有问题（女工程师数据少）的情况下，为了达成计算上最优的结果，AI 模型常常“放过”失败的男工程师，而“冤枉”了有潜力的女工程师。要调整这个偏见，与其让 AI “一视同仁”，不如把这个问题挑明，让偏差的分布更加公正。

《讲伦理的算法：如何科学地设计有社会观念的算法》| 亚马逊

而计量经济学出身的于洋则用了另外一种工具： 用统计模型，找出偏见的“原因”，然后从原因上下手。一个简单的例子——现有的数据显示，身体好的人收入更高。AI 可能理解为身体是工作的本钱，从而在简历里找身体好的候选人。但用经济学工具对更细致的统计数据，进行进一步分析之后，真正的结论可能是相反：收入更高的人，更能有钱有闲健身，从而身体更好。把这个“道理”“告诉” AI，那么 AI 就会在职业预测里抹掉身体这方面的因素。和职业相关的性别偏见也如此——从语料库数据中，找出偏见的来源，对来源进行处理。于洋团队的研究表明， 在对模型进行数据处理之后，模型的表现不会变差，反而更好了，公平和效率得到了兼顾。

找出偏见的来源，把“道理”“告诉”AI | Pixabay

这也反映出了当下人工智能和计算机领域研究的一个问题—— 如果只关注模型的表现（performance），只从算法上下功夫，暴力堆砌数据，反而会忽略了更加核心的问题：你究竟要达到什么目的？这些社会的、经济的、组织上的目的，有没有和技术语言更好地契合？美国数学家、《算法霸权 : 数学杀伤性武器的威胁》作者凯西·奥尼尔（Cathy O’Neil）就指出，亚马逊的简历筛选的偏见问题，其实是技术语言的一种滥用：人工智能的首要目的，就是有效、快速地筛选简历，当下的速度和表现就是一切，公司人才库的长远发展则受到了忽视。

要解决 AI 的偏见问题，学科间的合作很重要。“关于纠偏，计量经济学的工具库里有大量现成的东西，计算机和人工智能专业应该展开合作。” 于洋说。而社会学、伦理学、心理学，乃至工程设计、人机交互和技术政策等领域，都应该充分参与到这个问题的讨论中，贡献自己的学科长处。

学科间的合作能帮助AI更好地纠偏 | Pexels

结语

吃进数据的 AI 像是“照妖镜”，映照出了整个社会的顽疾。而解决这个问题，也不仅仅是“技术调整”，需要更多智慧和洞察，让 AI 和人类一起“对话”，一起进步。

关于这个问题，12月9日，在2022人工智能合作与治理国际论坛上，来自联合国、学术、企业的专家将共同探讨“正视人工智能引发的性别歧视”话题，欢迎预约直播参与。

参考文献

[1] Reuters, Amazon scraps secret AI recruiting tool that showed bias against women. Oct 18, 2018. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

[2] Liu, Y., Liu, X., Chen, H., & Yu, Y. (2022). Does Debiasing Inevitably Degrade the Model Performance. arXiv preprint arXiv:2211.07350.

[3] Sun, T., Gaut, A., Tang, S., Huang, Y., ElSherief, M., Zhao, J., ... & Wang, W. Y. (2019, July). Mitigating Gender Bias in Natural Language Processing: Literature Review. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 1630-1640).

[5] Kearns, M., & Roth, A. (2019). The ethical algorithm: The science of socially aware algorithm design. Oxford University Press.

[6] O"neil, C. (2017). Weapons of math destruction: How big data increases inequality and threatens democracy. Crown.

本文经授权转载自 联合国开发计划署（ID：undpchina），如需二次转载请联系原作者。欢迎转发到朋友圈。

职业,歧视,社会,预测,模型,训练,人工智能,偏见,人类,性别,于洋,模型,人工智能,偏见,性别

相关文章