🌞

基于远程监督的关系抽取研究现状

系抽取建立在命名实体识别的基础上,是知识图谱补全的重要任务之一。关系抽取的目标是从文本中提取出两个实体之间的语义关系。传统的关系抽取虽然已经达到相当好的效果,但需要人工预先精准地标注大量句子级别的数据,标注成本十分昂贵。在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务[1]

为了获得大量的机器标注的训练数据,Mintz M[2]等人将远程监督的概念应用到关系抽取任务中,并提出一个非常著名的假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的所有句子都在以某种方式表达这种关系。远程监督能够显著减少关系抽取任务所需的标注成本,但其过强的假设为数据引入了大量噪声。自2009年远程监督的假设提出之后,便有大量的学者投身于此研究中,致力于降低远程监督所带来的标签噪声。

远程监督的第一个重大进展是多实例学习的引入。Zeng[3]等人弱化了远程监督的假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的所有句子中,至少有一句在表达这个关系。他们将包含同一对实体的所有句子构成一个包,然后使用PCNN模型提取每个句子的表征,最后以包中概率最大的句子表征作为这个包的表征,通过Softmax进行分类。Lin[4]等人则认为只使用包中最大概率的句子进行分类,会丢弃掉包中其他句子的有效信息,于是他们引入了句子级别的注意力,为包中每个句子赋予一个注意力权重,然后以包中所有句子表征的加权和作为这个包的表征。Lin等人的方法能够非常有效地降低远程监督所带来的标签噪声,现已成为基于远程监督的关系抽取中常用的Baseline了,许多学者在此基础上深入研究。

另一种降低标签噪声影响的思路是提高模型的抗噪能力。Wu[5]等人引入了对抗训练,以此增强模型对噪声数据的抵抗能力。

虽然多实例学习和对抗训练可以降低标签噪声的影响,但并不能从根本上消除噪声。Feng[6]等人借助强化学习模型,直接过滤掉训练样本中的噪声句子,然后使用剩下的训练数据来训练模型。Qin[7]等人使用了生成对抗网络。他们使用生成器来划分数据,使用判别器来评价该划分的好坏,通过生成器和判别器的相互促进,最终得到一个能从训练集中筛选出噪声句子的生成器。

上述工作虽然都在一定程度上降低了远程监督所带来的噪声影响,但仍局限于语料集本身,可用的信息只有文本统计的数据。近年来许多学者开始尝试借助外部知识的指导,进一步提高关系抽取模型的能力。Lei[8]等人提出了协同降噪框架,利用知识图谱中的监督信息来降低远程监督的标签噪声。该框架使用两个神经网络分别在文本和知识图谱上学习,然后通过双向知识蒸馏模块完成它们之间的共同学习。Vashishth[9]等人使用关系别名和实体类型这两种知识库信息来丰富了文本中的关系和实体信息。Xu[10]等人通过知识图谱嵌入和关系抽取的联合学习,显著地提高了在远程监督下的关系抽取性能。

除了借助外部知识的指导,还有学者在研究如何借助有监督下的关系抽取模型来指导远程监督下的关系抽取。然而现有的有监督数据集和远程监督数据集中的关系标签通常是不重合的,如何结合两种数据以提高远程监督下的关系抽取性能,是这个方向的首要任务。大多数的结合方法都是把两个数据集简单的混到一起,然后增加分类的类别。Beltagy[11]等人则提出了更有效的结合方法,他们在有监督数据集上训练了一个二元关系分类器,判断句子是否表达了两个实体之间的关系,然后用此分类器来滤除远程监督样本中的假阳性噪声数据。

参考文献

[1] 韩旭, 高天宇, 刘知远, et al. 知识图谱从哪里来:实体关系抽取的现状与未来[EB/OL]. 2019-11-7[2020-1-9]. https://zhuanlan.zhihu.com/p/91762831.

[2] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1003-1011.

[3] Zeng D, Liu K, Chen Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1753-1762.

[4] Lin Y, Shen S, Liu Z, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016: 2124-2133.

[5] Wu Y, Bamman D, Russell S. Adversarial training for relation extraction[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 1778-1783.

[6] Feng J, Huang M, Zhao L, et al. Reinforcement learning for relation classification from noisy data[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[7] Qin P, Weiran X U, Wang W Y. DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018, 1: 496-505.

[8] Lei K, Chen D, Li Y, et al. Cooperative denoising for distantly supervised relation extraction[C]//Proceedings of the 27th International Conference on Computational Linguistics. 2018: 426-436.

[9] Vashishth S, Joshi R, Prayaga S S, et al. RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 1257-1266.

[10] Xu P, Barbosa D. Connecting Language and Knowledge with Heterogeneous Representations for Neural Relation Extraction[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 3201-3206.

[11]Beltagy I, Lo K, Ammar W. Combining distant and direct supervision for neural relation extraction[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 1858-1867.