当前位置: 主页 > 西宁生活网 > 资讯 >

谷歌发布含 7 种语言的全新数据集:有效提升 BERT 等多语言模型任务精度高达 3 倍

来源:互联网 2019-10-10 11:22:33  阅读:0
导读: 

近日,谷歌发布了包含 7 种语言释义对的全新数据集,即:PAWS 与 PAWS-X。BERT 通过该数据集的训练,在释义对问题上的精度实现了约为 3 倍的提升;其它先进的模型也能够利用该数据集将精度提高到 85-90%。谷歌希望这些数据集将有助于推动多语言模型的进一步发展,并发布了相关文章介绍了该数据集,雷锋网 AI 开发者将其整理编译如下。

谷歌发布含 7 种语言的全新数据集:有效提升 BERT 等多语言模型任务精度高达 3 倍

背景环境

词序和句法结构对句子意义有很大影响,即使词序中的一点小改动也能完全改变句子的意思,例如下面的一组句子:

  1. Flights from New York to Florida.(从纽约飞往佛罗里达州的航班)

  2. Flights to Florida from New York.(从纽约出发到佛罗里达州的航班)

  3. Flights from Florida to New York.(从佛罗里达州飞往纽约的航班)

尽管这三个词都有相同的词组;但是 1 和 2 具有相同的含义,我们将这样的一组句子对称为释义对(paraphrase pairs),而 1 和 3 有完全相反的含义,所以我们将其称为非释义对(non-paraphrase pairs)。识别一对句子是否为释义对的任务则被称为释义识别,这一任务对于许多实际应用中的自然语言理解(NLU)处理而言是非常重要的,例如:常见的问答任务等。

但令人惊讶的是,目前即使是最先进的模型,如:BERT,如果仅在现有的 NLU 数据集下进行训练,并不能正确地识别大部分非释义对(就像上面所列举的 1 与 3)之间的差异。其中很大的原因是由于在现有 NLU 数据集中,缺少诸如此类的训练数据。因此,即使现有的机器学习模型能够很好地理解复杂的上下文短语,它们依旧很难拥有对该类任务的判断能力。


推荐阅读:叶紫网

 

(正文已结束)

(编辑:喜羊羊)

免责声明及提醒:此文内容为本网所转载企业宣传资讯,该相关信息仅为宣传及传递更多信息之目的,不代表本网站观点,文章真实性请浏览者慎重核实!任何投资加盟均有风险,提醒广大民众投资需谨慎!