谷歌发布含 7 种语言的全新数据集：有效提升 BERT 等多语言模型任务精度高达 3 倍

来源：互联网 2019-10-10 11:22:33 阅读：0

导读：

近日，谷歌发布了包含 7 种语言释义对的全新数据集，即：PAWS 与 PAWS-X。BERT 通过该数据集的训练，在释义对问题上的精度实现了约为 3 倍的提升；其它先进的模型也能够利用该数据集将精度提高到 85-90%。谷歌希望这些数据集将有助于推动多语言模型的进一步发展，并发布了相关文章介绍了该数据集，雷锋网 AI 开发者将其整理编译如下。

背景环境

词序和句法结构对句子意义有很大影响，即使词序中的一点小改动也能完全改变句子的意思，例如下面的一组句子：

Flights from New York to Florida.（从纽约飞往佛罗里达州的航班）
Flights to Florida from New York.（从纽约出发到佛罗里达州的航班）
Flights from Florida to New York.（从佛罗里达州飞往纽约的航班）

尽管这三个词都有相同的词组；但是 1 和 2 具有相同的含义，我们将这样的一组句子对称为释义对（paraphrase pairs），而 1 和 3 有完全相反的含义，所以我们将其称为非释义对（non-paraphrase pairs）。识别一对句子是否为释义对的任务则被称为释义识别，这一任务对于许多实际应用中的自然语言理解（NLU）处理而言是非常重要的，例如：常见的问答任务等。

但令人惊讶的是，目前即使是最先进的模型，如：BERT，如果仅在现有的 NLU 数据集下进行训练，并不能正确地识别大部分非释义对（就像上面所列举的 1 与 3）之间的差异。其中很大的原因是由于在现有 NLU 数据集中，缺少诸如此类的训练数据。因此，即使现有的机器学习模型能够很好地理解复杂的上下文短语，它们依旧很难拥有对该类任务的判断能力。