文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展

发布于 2025-01-21 00:48:33 字数 4775 浏览 0 评论 0 收藏 0

引言

PaperWeekly 已经介绍过不少 Question Answering 的相关工作。主要有 DeepMind Attentive Reader，FAIR Memory Networks，Danqi’s Stanford Reader, Attention Sum Reader, Gated Attention Sum Reader, Attention Over Attention Reader, etc. 这些模型关联性很大，或多或少存在相似之处。本文给大家介绍一下 Toyota Technological Institute at Chicago (TTIC) 在 Question Answering 方面的相关工作，共有 3 篇 paper：

1、Who did What: A Large-Scale Person-Centered Cloze Dataset, 2016

2、Broad Context Language Modeling as Reading Comprehension, 2016

3、Emergent Logical Structure in Vector Representations of Neural Readers, 2016

Who did What: A Large-Scale Person-Centered Cloze Dataset作者

Takeshi Onishi, Hai Wang, Mohit Bansal, Kevin Gimpel, David McAllester

文章来源

EMNLP 2016

问题

文章构建了一个新的 Question Answering dataset，”Who did What”。

sample instance 如下图所示。

问题的句子总是挖掉了一些 named entities，然后给出在文中出现过的别的 named entities 作为选项。这一个 dataset 的难度要高于之前的 CNN/DM dataset，可以作为创建新模型的参考数据集。

模型

构建此数据集的方法与 CNN/DM 不同，问题并不是 context passge 的一个 summary。问题与 context 均来自 Gigaword Corpus，他们是两篇非常相关的文章。

具体来说，我们先找到一篇文章，作为 question 文章。然后提取出文中第一句话的 named entities，删除其中的一个 named entity 作为将要被预测的答案。然后利用这一句 question sentence，我们可以利用一些 Information Retrieval 系统从 Gigaword Corpus 找到一篇相关的文章作为 passage。这篇文章与 question 文章不同，但是包含着与 question sentence 非常类似的信息。

有了 passage 之后，我们再从 passage 中找出 named entities 作为 candidate answers。

为了使任务难度更大，我们用一些简单的 baseline (First person in passage, etc) 将一些很容易做出的问题删掉，只留下比较困难的 instances。这样构建的数据比 CNN/DM 会困难不少。

简评

相信作者创建的新数据集会给 Machine comprehension 带来一些新的问题与挑战，是很有价值的资源。文章采用的 baseline suppresion 方法可以用比较小的代价加大问题的难度，值得参考。

Broad Context Language Modeling as Reading Comprehension作者

Zewei Chu, Hai Wang, Kevin Gimpel, David McAllester

文章来源

arXiv

问题

不久前发布的中，作者尝试的各种 baseline models 都给出了比较差的结果。

每一个 LAMBADA instance 如下图所示。

模型

在观察了 LAMBADA dataset 之后，我们认为可以利用 Reading comprehension models 来提升准确率，而不必使用传统的 language model。

由于 state of the art reading comprehension models 需要给出 candidate answers，然后从中选出一个作为预测的答案，我们就将所有在 context 中出现过的单词都作为一个 candidate answer。

LAMBADA 给出的训练集是一些小说的文本。为了使训练集与测试集的数据类型保持一致，我们构建了一个 biased training set。具体的做法是，我们将 training set 划分成 4-5 句话的 context，然后保证 target word 在 context passage 中出现，只保留这样的训练数据。我们在新构建的 training set 上训练各种 attention based models,得到了比原作者好得多的测试结果。

简评

这篇文章中，作者利用了简单的方法和模型将 LAMBADA dataset 的准确率从 7.3%提高到 45.4%，非常简单有效。

Emergent Logical Structure in Vector Representations of Neural Readers作者

Hai Wang, Takeshi Onishi, Kevin Gimpel, David McAllester

文章来源

ICLR 2017 Submission

问题

最近提出的各种各样的 attention based reader models,本文作者做了一个比较全面的总结和分析，并且通过数学分析和实验展示了模型之间的相关性。

模型

本文作者认为，当前的 attention based models 可以分为两类，aggregation readers(包括 attentive readers 和 stanford readers) 以及 explicit reference readers(包括 attention sum reader 和 gated attention sum reader)。

这两种 reader 可以用如下的公式联系在一起。

要满足上述等式，只需要满足下面的公式。

也就是说，只有正确答案所在的 hidden vector 和 question vector 得到的 inner product 才能给出不为零的常数。以下实验结论支持了这一假设。

由于 CNN/DM 在训练和测试中经过了 anonymization，作者认为此 inner product 其实可以分为两部分，一部分与 anonymized token ID 有关，另一部分与 ID 无关。与 ID 相关的那一部分在 inner product 应该直接给出 0 的答案。如下述公式所示。