在预训练nlp模型上测量性别相关性 | 雷峰网-米乐m6平台

nlp

2020/10/26 11:42

译者：ai研习社（）

双语原文链接：

作者：谷歌研究院软件工程师kellie webster

在过去的几年中，（nlp）取得了长足的进步，诸如，，和等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以这样的大型文本语料库为训练集，通过遮掩一些单词并对它们进行预测来学习嵌入表示，即。实验结果表明，通过这样的方式，可以对不同概念（如外科医生和手术刀）间的丰富语义信息进行编码。训练完成后，经过微调就可使模型适用特定任务的训练数据，通过预训练嵌入实现等特定任务。鉴于这样的预训练表示在不同nlp任务中得到广泛采用，作为从业者，我们需要了解预训练模型如何对信息编码以及学习到怎样的相关性，这些又会怎样影响下游应用性能，这样才不至于偏离我们的。

在“”，我们对bert及精简版的albert进行实例研究，讨论了性别相关性，并为预训练语言模型的实践应用提供参考。我们在学术任务数据集进行实验，并将结果与一些常用模型做了对比，以验证模型实用性，并为进一步的研究提供参考。我们后续会发布一系列checkpoints，从而可以在保持nlp任务准确性的情况下减少性别相关性。

为了解预训练表征中的相关性如何影响下游任务，可以使用多种评估指标来研究性别表征。在这里，我们采用讨论测试结果，该方法旨在使模型能够理解句子中给定代词的正确先行词，例图示句子中，模型要识别出他指护士而不是患者。

（）是最常用得标准验证数据集，同时f1分数用来衡量模型在共指消解中的准确性（）。由于ontonotes仅表示一种数据分布，因此我们还使用winogender基准测试，该基准提供了一些其他数据，通过该基准可以判别性别和职业何时会产生错误的共指消解。的得分较高（接近1），表明模型基于（如将护士与女性而不是男性关联）进行决策；当性别和职业之间没有一致的关联时（得分为零），此时模型决策基于句子结构或语义等其他信息。

bert和albert在ontonotes（准确性）和winogender（性别关联）上的表现。winogender的值越低，表示模型在推理中较少关注性别信息。

研究发现，或在winogender上都没有零得分，而在ontonotes上获得了极高的准确性（接近100％）。实验表明，在一些情况下，模型在推理决策中会考虑性别相关性。这符合我们的预期，模型可以使用多种线索来理解文本，可以只采用其中的一种或是选择全部线索。当然，在实际应用中我们还是要谨慎，不能寄希望于模型根据先验的性别相关性进行预测，其他可用信息对于预测也非常重要。

鉴于预训练模型嵌入中的隐式关联有可能影响下游任务，因此在开发新的nlp模型时，我们要考虑可以采取哪些措施来减轻这种风险？

隐式相关性的衡量非常重要：虽然可以使用准确性度量来评估模型质量，但是这样度量方式仅从单一角度评估模型，在测试数据与训练数据分布相同时其不足尤为显著。例如，bert和albert检查点的准确度相差1％以内，但使用性别相关性进行共指解析的相对偏差为26％。这意味着，对于某些任务，这样的差异尤为重要。在处理一些反固定思维的文本时（如男护士），选择winogender分数较低的模型更加合理。
更改任何模型配置时都要谨慎，哪怕看似影响不大：神经网络模型训练由许多超参数控制，一般通过选择合理的超参数以最大化训练目标。尽管某些参数选择看似不会对模型产生什么影响，但我们却发现，它们可能会导致性别相关性发生重大变化。例如，dropout正则化用于避免模型的过度拟合，当我们在bert和albert训练过程中增大dropout参数，即使进行微调，性别相关性还是会显着降低。这意味着微小的配置更改就可以影响训练模型，从而降低相关性风险，但同时也表明，在对模型配置进行任何更改时，我们应该谨慎行事、仔细评估。

在bert和albert训练过程中增大dropout参数的影响

相关性的缓解：前文以介绍了dropout对性别相关性的影响，据此，我们进一步推论得到通过这样的方式可能减少额外的相关性：通过增加dropout参数，我们可以改进模型对winogender的推理方式，而无需手动指定任何内容，甚至不需要更改微调阶段。然而，随着dropout的增加，onenotes的准确性也会开始下降（见bert的结果），但我们认为可以在预训练阶段避免这种情况，通过更改dropout改进模型，而无需针对特定任务进行更新。在中，我们基于反事实数据增强，提出了另一种具有差异化权重的缓解策略。

我们认为，以上这些实践指南为开发强大的nlp系统提供了参考，从而使其适用于更广泛的语言和应用范围。当然，由于技术本身的不足，难以捕获和消除所有潜在的问题。因此，在现实环境中部署的任何模型都应经过严格测试，即尝试不同方法，并通过一些保护措施以确保符合道德规范，如google的ai原则。我们期待评估框架与数据取得更进一步的发展，使语言模型适用于各种任务，为更多人提供优质服务。

本文的合作者包括xuezhi wang，ian tenney，ellie pavlick，alex beutel，jilin chen，emily pitler和slav petrov。同时感谢fernando pereira，ed chi，dipanjan das，vera axelrod，jacob eisenstein，tulsee doshi和james wexler等人。

ai研习社是ai学术青年和ai开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为ai学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的ai爱好者。欢迎与雷锋字幕组一起，学习新知，分享成长。