论文笔记：Exploiting WordNet Synset and Hypernym Representations for Answer Selection

阅读量：4290 次

发布时间：2019-05-27

本文共 2657 字，大约阅读时间需要 8 分钟。

作者：陈宇飞

单位：燕山大学

一、研究问题

答案选择（AS）是基于文档的问答系统(DQA)的一个重要子任务。在这个任务中，候选答案来自同一个文档，每个答案句子都与给定的问题语义相关，这使得选择真实答案变得更加困难。

二、解决思路

本文采用的WIkiQA数据集，它的问题来自于必应的用户搜索记录，候选答案出自维基百科中的问题搜索结果，结果往往是一段长文档，数据集中的候选答案则来自文档中的某一句，这就增加了问题的难度，因为候选答案中出自一篇文档，候选答案之间可能会存在一些上下文联系，错误答案与问题之间可能具有相似的语义表示，例如，

Question: what food is in afghan ?

Answer1: A table setting of Afghan food in Kabul.

Answer2：Afghan cuisine is largely based upon the nation’s chief crops; cereals like wheat, maize, barley and rice.

Answer1就是错误的，但是问句答案之间具有相似的语义表示，模型就会很难的做出正确的判断，这就需要给模型注入额外的外部知识，让模型可以判断出Answer2中的wheat, rice这些就是food，使模型具有推理能力。

本文提出一种基于WordNet模型，用synset(同义词)增强语义特征，使用hypernym(上位词)来增加推理知识，帮助区分潜在语义空间中的候选答案。

三、模型设计

模型主要由四部分组成：

WordNet-enhanced hierarchical model (WEHM)

3.1 WordNet-Enhanced Word Representation

与普通的word embedding不同，通过WordNet来对原句中的每个词进行多个同义词和上位词的求和取平均，三者拼接后组成新的句子嵌入，以此来增强语义特征。其中 $s$ 代表同义词， $h$ 代表上位词， $∣ S ∣$ 代表同义词个数， $∣ H ∣$ 代表上位词个数，上位词之间的相关分数 $j$ 代表原句中第 $j$ 个单词，下同。

在这里插入图片描述

3.2 Sentcene Encoding

本文的编码模型选择了Bi-directionalGated Recurrent Unit (Bi-GRU)模型，分析选择该模型的理由主要是因为Bi-GRU可以捕获到句子中的上下文信息，同时与Bi-LSTM比较来说，可以节省计算成本和时间。

这是一个标准的Bi-GRU模型，最后得到编码后的结果

h_j^q

和

h_j^{a^i}

分别代表问题和第i个候选答案中的第j个单词的向量表示。

3.3 WordNet-Enhanced Attention Mechanism

注意机制主要由三部分组成：标准的注意力分数，同位词之间的相关分数，上位词之间的相关分数。

（1）标准的注意力分数，公式如下：

因为是标准的注意力分数计算公式，为节省篇幅，此处不做解释。

（2）同位词之间的相关分数：

使用Wu-Palmer Similarity方法计算同义词之间的相关性分数，公式如下：在这里插入图片描述

其中

a_n^i

和

q_m

分别代表第i个候选答案中的第n个单词和问句中的第m个单词。c是

a_n^i

和

q_m

的最小公共消费者（the least common superconcept），

N_{a_n^i}

是

a_n^i

到c路径上的节点数，

N_{q_m}

是

q_m

到c路径上的节点数,

N_c

是c到根节点路径上的节点数。

（3）上位词之间的相关分数：

使用Leacock-Chodorow Similarity方法计算上位词之间的相关分数，公式如下：

在这里插入图片描述

L

是整个分类的长度，

p a t h

(

a_n^i

q_m

)是

a_n^i

和

q_m

之间的最短路径长度。

然后结合三个注意力分数矩阵得出得到一个新的WordNet-enhanced similarity matrix

M

,通过

M

来计算得出一个新的句子表示

v^{a_i}

，最后用

v^{a_i}

和

h^{a_i}

计算出最终的

\hat{v^{a_i}}

句子表示。

在这里插入图片描述

这里

;

代表串联操作，

+

代表逐元素相加，

-

代表逐元素相减，

\bigodot

代表逐元素相乘。

3.4 Hierarchical Document Encoding

首先对每个候选答案 $\hat{v^{a_i}}$ 进行编码，从句子向量表示中提取特征。然后再次根据每个候选答案提取的特征进行编码。

在这里插入图片描述

其中

f^{a^i}

代表从第

i

个答案中提取到的特征。

最后使用一个softmax层来计算选择正确的答案，模型训练时使用交叉熵损失函数。

四、实验分析与总结

本文在WikiWQ和SelQA两个数据集上进行实验比较，与现有的最先进的DynamicClip和AdaQA方法相比，评价指标MRR和MAP均有明显提升，对比结果如下：在这里插入图片描述

本文还进行了错误案例分析，其中举出的例子如下图：

问题提问到心脏病的产生原因？模型会错误预测候选答案1为正确回答，因为答案1中出现了与问句相同的heart disease单词，两句话会编码得到相似的语义特征，给模型提供错误的信息，导致模型错误的预测。而正确回答中是用了与heart disease同义的cardiovascular disease，在有限的数据集中，不能把所有领域的知识都能让模型有效的学习，使模型不能具有强大的推理能力，导致结果出错。实验表明在有限的数据集中，给模型提供一些额外的知识，比如同义词、反义词和同音异义词，可以有效的提升模型的推理泛化能力。WordNet-enhanced仅是一种提升知识的方法，未来我们可以在神经网络中探索更多的知识来处理不同的自然语言处理任务。

转载地址：http://pqmgi.baihongyu.com/

你可能感兴趣的文章

Android 6.0 APIs_新特性(google官方)

查看>>

maxwell斗胆也来谈谈"学习方法“_转自黑马论坛

查看>>

XML解析

查看>>

AndroidManifest.xml详解

查看>>

activity的xml详解

查看>>