资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

在预训练nlp模型上测量性别相关性 | 雷峰网-米乐m6平台

nlp
作者:ai研习社-译站
2020/10/26 11:42

译者:ai研习社()

双语原文链接:


作者:谷歌研究院软件工程师kellie webster

在过去的几年中,(nlp)取得了长足的进步,诸如,,和等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以这样的大型文本语料库为训练集,通过遮掩一些单词并对它们进行预测来学习嵌入表示,即。实验结果表明,通过这样的方式,可以对不同概念(如外科医生和手术刀)间的丰富语义信息进行编码。训练完成后,经过微调就可使模型适用特定任务的训练数据,通过预训练嵌入实现等特定任务。鉴于这样的预训练表示在不同nlp任务中得到广泛采用,作为从业者,我们需要了解预训练模型如何对信息编码以及学习到怎样的相关性,这些又会怎样影响下游应用性能,这样才不至于偏离我们的。

在“”,我们对bert及精简版的albert进行实例研究,讨论了性别相关性,并为预训练语言模型的实践应用提供参考。我们在学术任务数据集进行实验,并将结果与一些常用模型做了对比,以验证模型实用性,并为进一步的研究提供参考。我们后续会发布一系列checkpoints,从而可以在保持nlp任务准确性的情况下减少性别相关性。

为了解预训练表征中的相关性如何影响下游任务,可以使用多种评估指标来研究性别表征。在这里,我们采用讨论测试结果,该方法旨在使模型能够理解句子中给定代词的正确先行词, 例图示句子中,模型要识别出他指护士而不是患者。


()是最常用得标准验证数据集,同时f1分数用来衡量模型在共指消解中的准确性()。由于ontonotes仅表示一种数据分布,因此我们还使用winogender基准测试,该基准提供了一些其他数据,通过该基准可以判别性别和职业何时会产生错误的共指消解。的得分较高(接近1),表明模型基于(如将护士与女性而不是男性关联)进行决策;当性别和职业之间没有一致的关联时(得分为零),此时模型决策基于句子结构或语义等其他信息。


bert和albert在ontonotes(准确性)和winogender(性别关联)上的表现。winogender的值越低,表示模型在推理中较少关注性别信息。

研究发现,或在winogender上都没有零得分,而在ontonotes上获得了极高的准确性(接近100%)。实验表明,在一些情况下,模型在推理决策中会考虑性别相关性。这符合我们的预期,模型可以使用多种线索来理解文本,可以只采用其中的一种或是选择全部线索。当然,在实际应用中我们还是要谨慎,不能寄希望于模型根据先验的性别相关性进行预测,其他可用信息对于预测也非常重要。

鉴于预训练模型嵌入中的隐式关联有可能影响下游任务,因此在开发新的nlp模型时,我们要考虑可以采取哪些措施来减轻这种风险?


在bert和albert训练过程中增大dropout参数的影响


我们认为,以上这些实践指南为开发强大的nlp系统提供了参考,从而使其适用于更广泛的语言和应用范围。当然,由于技术本身的不足,难以捕获和消除所有潜在的问题。因此,在现实环境中部署的任何模型都应经过严格测试,即尝试不同方法,并通过一些保护措施以确保符合道德规范,如google的ai原则。我们期待评估框架与数据取得更进一步的发展,使语言模型适用于各种任务,为更多人提供优质服务。

本文的合作者包括xuezhi wang,ian tenney,ellie pavlick,alex beutel,jilin chen,emily pitler和slav petrov。同时感谢fernando pereira,ed chi,dipanjan das,vera axelrod,jacob eisenstein,tulsee doshi和james wexler等人。


ai研习社是ai学术青年和ai开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为ai学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的ai爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

长按图片保存图片,分享给好友或朋友圈

在预训练nlp模型上测量性别相关性

扫码查看文章
米乐m6平台

正在生成分享图...

取消
相关文章
网站地图