Debiasing word embeddings | 浅谈词嵌入除偏 #yyds干货盘点# _干货

少年辛苦终身事，莫向光阴惰寸功。这篇文章主要讲述Debiasing word embeddings | 浅谈词嵌入除偏 #yyds干货盘点#相关的知识，希望能为你提供帮助。
这篇文章是我的笔记分享，内容主要来自吴恩达老师的深度学习课程。^[AI中国官网-全球领先的线上AI教育、实践平台 (deeplearningai.net)]
刻板印象的存在word embedding对我们模型泛化性具有很重要的影响，因此我们也要确保它们不受非预期形式偏见的影响。比如性别歧视，种族歧视，宗教歧视等等。
【Debiasing word embeddings | 浅谈词嵌入除偏 #yyds干货盘点#】当然我觉得用提示这个词有点严重了，这里我们可以理解为刻板印象。
举个栗子：
我的爸爸是个医生，我的妈妈是___ 。
我的爸爸是公司职员，我的妈妈是___ 。
男孩子喜欢 。女孩子喜欢 。
第一个空的当然很可能是“护士”。第二个空的答案很可能是“家庭主妇”。第三个空的答案很可能是“变形金刚”。第四个空的答案很可能是“芭比娃娃”。
这是什么呢？这就是所谓的性别刻板印象。这些刻板印象都和社会经济状态相关。
学习算法是没有刻板印象的，但是人类写出来的文字是有刻板印象的。而Word embedding就可以“很好的”学会这些刻板印象。
所以我们需要尽量的修改学习算法，尽可能减少或者理想化，消除这些非预期类型的偏见。
消除词嵌入刻板印象借助的是arXiv:1607.06520^[[1607.06520v1] Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings (arxiv.org)]的方法。
主要分为以下三个步骤：

Identify bias direction.
Neutralize: For every word that is not definitional, project to get rid of bias.
Equalize pairs.

假设现在我们已经有一个学习好的word embedding。
还是延续我们之前的样式。它采用的的是300维的特征，然后我们将其映射到二维平面上。这些词在平面上的分布就如图所示。

Debiasing word embeddings | 浅谈词嵌入除偏 #yyds干货盘点#

文章图片

1. 找方向
要找出存在于两个词之间刻板印象主要存在的方向，这个方法我们在前边讲word embedding特性的时候提过一次。就是将两个向量做减法得出他们差异的主要维度。
$edoctor-enurse$
$eboy-egirl$
$ehe-eshe$
$egrandmother-egrandfather$
上面这几个做减法之后会发现它们的差异主要在gender这一维度上。
之后对上面这几个做一个平均值。
我们就可以得出下面这个结果：

文章图片

我们能够找出一个与我们产生刻板印象偏见最主要的方向。然后也能找到一个特定偏见并不相关的方向。
注意：在这个情况下，我们认为我们的偏见方向“gender”是一个一维的空间，而剩下这个无关的方向是一个299维的子空间。这相对于原论文进行了简化。具体的可以去阅读文章末尾提供的参考文献。
2. 中和处理
有这词它是有明显的性别区分的，但是有的词它应该是不存在性别区分而公平存在的。
存在性别区分的词，比如grandmother和grandfather，而不存在性别区分的，比如nurse，doctor。对于这类词我们要对其进行中和处理，也就是说减少偏见方向上的水平距离。