返回介绍

数学基础

统计学习

深度学习

工具

Scala

三十四、BERT-Flow [2020]

发布于 2023-07-17 23:38:25 字数 72150 浏览 0 评论 0 收藏 0

  1. 最近,像 BERT 这样的预训练语言模型及其变体已被广泛用作自然语言的 representation 。尽管它们通过微调在许多 NLP 任务上取得了巨大的成功,但来自没有微调的 BERTsentence embedding 在语义文本相似性 semantic textual similarity: STS 方面明显逊色。例如,它们甚至不如 GloVe embedding 的表现,后者没有上下文并且用一个更简单的模型训练。这些问题阻碍了将BERT sentence embedding 直接应用到许多现实世界的场景中,在这些场景中,收集标记数据是非常昂贵的,甚至是难以解决的。

    在论文 《On the Sentence Embeddings from Pre-trained Language Models》 中,作者旨在回答两个主要问题:

    • 为什么 BERT 导出的 sentence embedding 在检索语义相似的句子时表现不佳?是它们携带的语义信息太少,还是仅仅因为这些embedding 中的语义信息没有被正确利用?

    • 如果 BERT embedding 捕获到了足够的语义信息,但很难被直接利用,那么我们如何才能在没有外部监督信息的情况下使其更容易被利用?

    为此,作者首先研究了 BERT 预训练目标与语义相似性任务之间的联系。作者的分析显示,BERTsentence embedding 应该能够直观地反映句子之间的语义相似性,这与实验观察相矛盾。 《Representation degeneration problem in training natural language generation models》 发现语言建模性能会受到所学的各向异性的 word embedding space 的限制,其中 word embedding 占据了一个狭窄的锥体;《How contextual are contextualized word representations? comparing the geometry of bert, elmo, and gpt-2 embeddings》 也发现 BERTword embedding 也受到各向异性的影响。受到这些论文的启发,作者假设,来自 BERTsentence embedding (作为来自最后几层的 context embedding 的平均值)可能存在类似问题。通过对 embedding 的经验探测,作者进一步观察到,BERTsentence embedding space 在语义上是不平滑的,而且在某些方面被定义得很差,这使得它很难通过简单的相似度量(如点积相似度或余弦相似度)直接使用。

    为了解决这些问题,作者提出通过 normalizing flowsBERT sentence embedding 分布转化为平滑的和各向同性的高斯分布,这是一个由神经网络参数化的可逆函数。具体来说,该方法学习一个 flow-based generative model ,从而最大化一个似然函数,该似然函数代表通过无监督的方式从标准的高斯潜变量Gaussian latent variable 中生成 BERT sentence embedding 的可能性。在训练过程中,只有 flow network 被优化,而 BERT 参数保持不变。学到的 flowBERT sentence embedding 和高斯潜变量之间的可逆映射函数,然后被用来将 BERT sentence embedding 转换到高斯空间。作者将所提出的方法命名为 BERT-flow

    作者在不使用任何下游监督的情况下对 7 个标准的语义文本相似性 benchmark 进行了广泛的实验。实验结果表明:flow transformation 能够一致地将 BERT 提高 12.70 个点,在 cosine embedding 相似性和人类标注的相似性之间的 Spearman 相关系数方面平均提高 8.16 个点。

    当考虑外部监督信息时,BERT-flow 优于Sentence-BERT ,导致了新的 SOTA 。除了语义相似性任务外,作者还将 sentence embedding 应用于question-answer entailment task QNLI ,直接不需要task-specific 监督,并证明了BERT-flow 的优越性。此外,进一步分析表明,BERT 导出的相似性会与 lexical similarity 过度相关(与语义相似性相比),而,BERT-flow 可以有效地补救这一问题。

    Lexical Similarity 由编辑距离来衡量,刻画了两个句子在 word-level 上的相似性,而不是语义相似性。

34.1 理解 BERT 的 Sentence Embedding Space

  1. 为了用 BERT 将一个句子编码成一个固定长度的向量,通常做法是在 BERT 的最后几层计算 context embeddings 的平均值,或者在[CLS] token 的位置提取 BERT context embedding 。请注意,在生成 sentence embedding 时没有被掩码的 token ,这与 pretraining 是不同的。

    SBERT 证明,这种 BERT sentence embedding 在语义相似度方面落后于 SOTAsentence embedding 。在 STS-B 数据集上,BERT sentence embeddingaveraged GloVe embedding 相比更没有竞争力,其中 GloVe 是几年前提出的一个简单的、non-contextualizedbaseline 。尽管如此,这种效果差在现有文献中还没有得到很好的理解。

    注意,正如SBERT 所证明的那样,averaging context embeddings 一直优于 [CLS] embedding 。因此,除非另有提及,否则我们将 context embeddings 的均值作为 BERT sentence embedding ,并在本文的其余部分中不区分它们。

34.1.1 语义相似性和 BERT Pre-training 之间的联系

  1. 考虑关于 token 的一个序列x1:T=(x1,,xT)$ \mathbf x_{1:T} = (x_1,\cdots,x_T) $ 。语言建模 language modeling: LM 以自回归方式来因子化联合概率p(x1:T)$ p(\mathbf x_{1:T}) $ ,即:p(x1:T)=t=1Tlogp(xtct)$ p(\mathbf x_{1:T}) = \sum_{t=1}^T \log p(x_t\mid \mathbf c_t) $ ,其中ct=x1:t1$ \mathbf c_t = \mathbf x_{1:t-1} $ 为t$ t $ 时刻的上下文序列。

    为了捕获预训练期间的双向上下文,BERT 提出了一个 masked language modeling: MLM 目标,它因子化了 noisy reconstruction 的概率p(x¯x^)=t=1Tmtp(xtct)$ p(\bar x \mid \hat {\mathbf x})=\sum_{t=1}^T m_t p(x_t\mid \mathbf c_t) $ ,其中x^$ \hat {\mathbf x} $ 是一个被破坏的序列,x¯$ \bar x $ 是被掩码的token ,当xt$ x_t $ 被掩码时mt=1$ m_t = 1 $ 否则等于mt=0$ m_t=0 $ ,上下文ct=x^$ \mathbf c_t = \hat{\mathbf x} $ 。

    注意,LMMLM 都可以简化为,建模在给定上下文c$ \mathbf c $ 的条件下 tokenx$ x $ 的条件分布,这通常由一个 softmax 函数来描述:

    (13)p(xc)=exp(hcwx)xexp(hcwx)

    其中:

    • hc$ \mathbf{\vec h}_c $ 为 context embedding ,它是上下文c$ \mathbf c $ 的函数,通常由一个神经网络来建模。

    • wx$ \mathbf w_x $ word embedding ,它是 tokenx$ x $ 的函数,通常由 embedding lookup table 来参数化。

    注意,虽然 MLMLM 的条件分布的形式相同,但是二者的上下文不同:

    • MLM 的上下文ct=x^$ \mathbf c_t = \hat{\mathbf x} $ ,即被破坏的完整序列,对于任何t$ t $ 都是相同的一个序列。

      LM 的上下文ct=x1:t1$ \mathbf c_t = \mathbf x_{1:t-1} $ ,即t$ t $ 时刻之前的序列,对于不同的t$ t $ 为不同的值。

    BERT sentence embedding 之间的相似性可以简化为 BERT context embedding 之间的相似性hchc$ \mathbf{\vec h}_{c}^\top \mathbf{\vec h}_{c^\prime} $ 。 然而,正如p(xc)$ p(x\mid \mathbf c) $ 的公式所示,BERT 的预训练并不明确涉及hchc$ \mathbf{\vec h}_{c}^\top \mathbf{\vec h}_{c^\prime} $ 的计算。因此,我们很难得出hchc$ \mathbf{\vec h}_{c}^\top \mathbf{\vec h}_{c^\prime} $ 具体代表什么数学公式。

  2. 作为语义相似性代理的Co-Occurrence 统计:我们不直接分析hchc$ \mathbf{\vec h}_{c}^\top \mathbf{\vec h}_{c^\prime} $ ,而是考虑hcwx$ \mathbf{\vec h}_{c}^\top \mathbf{\vec w}_x $ ,即 context embeddinghc$ \mathbf{\vec h}_{c} $ 和 word embeddingwx$ \mathbf {\vec w}_x $ 之间的点积。根据 《Breaking the softmax bottleneck : A high-rank rnn language model》的研究,在一个训练良好的语言模型中,hcwx$ \mathbf{\vec h}_{c}^\top \mathbf{\vec w}_x $ 可以近似地分解为:

    (14)hcwxlogp(xc)+λc=PMI(x,c)+logp(x)+λc

    其中:

    • PMI(x,c)=logp(x,c)p(x)×p(c)$ \text{PMI}(x, \mathbf c) = \log \frac{p(x, \mathbf c)}{p(x)\times p(\mathbf c)} $ 为x$ x $ 和上下文c$ \mathbf c $ 之间的 point-wise 互信息。

    • logp(x)$ \log p(x) $ 为 word-specific 项。

    • λc$ \lambda_c $ 为 context-specific 项。

    PMI 刻画了两个事件共同发生的频率,相比比它们独立发生的频率,要高多少。注意,co-occurrence statistics 是以计算的方式处理 "语义" 的典型工具,用于近似 word-level semantic similarity 。因此,大致上说,计算 context embeddingword embedding 之间的点积是有语义的。

  3. Higher-Order Co-Occurrence Statistics 作为 Context-Context Semantic Similarity:在预训练期间,两个上下文c$ \mathbf c $ 和c$ \mathbf c^\prime $ 之间的语义关系可以通过它们与单词的联系来推断和加强。具体而言,如果上下文c$ \mathbf c $ 和c$ \mathbf c^\prime $ 都与同一个单词w$ w $ 共同出现,那么这两个上下文就可能具有相似的语义。

    higher-order context-context co-occurrence 也可以在预训练期间被推断和被传播。context embeddinghc$ \mathbf{\vec h}_c $ 的更新可以影响另一个context embeddinghc$ \mathbf{\vec h}_{c^\prime} $ 也可以进一步影响另一个hc$ \mathbf{\vec h}_{c^{\prime\prime}} $ 。因此,context embedding 可以通过高阶共现关系在它们之间形成隐式交互。

34.1.2 各向异性的 Embedding Space 诱发了很差的语义相似性

  1. 正如前面所讨论的,BERT 的预训练应该隐式地鼓励具有语义的 context embedding 。为什么没有微调的 BERT sentence embedding 会产生较差的性能?

    为了研究失败的根本问题,我们使用 word embedding 作为代理,因为单词和上下文共享相同的 embedding 空间。如果 word embedding 表现出一些误导性的属性,那么 context embedding 也会有问题,反之亦然。

    《Representation degeneration problem in training natural language generation models》《Improving neural language generation with spectrum control》发现,根据最大似然p(xc)$ p(x\mid \mathbf c) $ 的训练,通常会产生一个各向异性anisotropic 的词嵌入空间 word embedding space 。 "各向异性" 是指 word embedding 在向量空间中占据一个狭窄的锥体。《How contextual are contextualized word representations? comparing the geometry of bert, elmo, and gpt-2 embeddings》 也观察到这一现象。

  2. 此外,我们对学到的各向异性的 embedding 空间有两个经验性的观察:

    • 观察一:Word Frequency Biases the Embedding Space :我们预期 embedding 诱导的相似性与语义相似性一致。

      正如 《Representation degeneration problem in training natural language generation models》 所讨论的,各向异性与词频的不平衡性高度相关。他们证明,在某些假设下,Transformer 语言模型中 non-appeared token 的最佳 embedding 可以离原点极远。他们还试图将这一结论粗略地推广到很少出现的单词。

      为了在 BERT 的背景下验证这一假设,我们计算了 BERT word embedding 和原点之间的平均L2 距离。在下表的上半部分,我们观察到高频词都离原点更近,而低频词则离原点更远。

      这一观察表明:word embedding 可以被单词频率带偏。这与hcwxPMI(x,c)+logp(x)+λc$ \mathbf{\vec h}_{ c}^\top \mathbf{\vec w}_x \simeq \text{PMI}(x, \mathbf c) + \log p(x) + \lambda_c $ 中的logp(x)$ \log p(x) $ 项相吻合,即单词的对数密度。由于 word embedding 在训练过程中起到了连接 context embedding 的作用,因此 context embedding 可能会相应地被单词频率信息所误导,context embedding保存的语义信息也会被破坏。

      即,单词频率会影响 word embedding 进而影响 context embedding

    • 观察二:Low-Frequency Words Disperse Sparsely :我们观察到,在学到的各向异性的 embedding 空间中,高频词集中在一起,而低频词则分散开。这一观察是通过计算 word emebdding 与它们的 k 近邻的平均 L2 距离实现的。在下表的下半部分,我们观察到,与高频词的 embedding 相比,低频词的 embedding 往往离其 k-NN 邻居更远。这表明,低频词往往是稀疏分散的。

      由于稀疏性,在 embedding 空间中的低频单词的 embedding 周围可能会形成许多 "洞",在这些洞里的语义可能不好定义。注意,BERT sentence embedding 是通过对 context embeddings 取平均产生的,这是一个保凸的操作。然而,这些洞违反了 embedding 空间的凸性。这是 representation learining 中的一个常见问题。因此,所得到的 sentence embedding 可以位于定义不明确的区域,并且诱导的相似性也会有问题。

34.2 模型

  1. 为了验证前面提出的假设,并避免 BERT sentence embedding 的无效,我们提出了一种称为 BERT-flow 的校准方法。该方法利用了从 BERT embedding space 到标准高斯潜在空间 Gaussian latent space 的可逆映射,如下图所示。可逆性条件保证了 embedding 空间和数据实例之间的互信息不会改变。

  2. 动机:标准的高斯潜在空间可能具有有利的特性,可以帮助我们解决问题:

    • 与观察一的联系:

      首先,标准高斯分布满足各向同性。标准高斯分布的概率密度不随角度的变化而变化。如果标准高斯的样本的 L2 范数被归一化,这些样本可以被看作是均匀分布在一个单位球体上。

      我们还可以从奇异谱 singular spectrum 的角度来理解各向同性。如上所述, embedding 空间的各向异性源于词频的不均衡性。在传统 word embedding 的文献中,《All-but-the-top: Simple and effective postprocessing for word representations》发现,dominating singular vectors 可能与词频高度相关,从而误导misleadembedding 空间。通过拟合一个映射,该映射是各向同性分布的,embedding 空间的奇异谱可以被拉平。通过这种方式,与词频相关的奇异值方向,也就是dominating singular vectors ,可以被抑制。

    • 与观察二的联系:

      其次,高斯分布的概率密度在整个实空间上定义良好,这意味着没有 "洞" 的区域。高斯先验对于缓解 "洞" 的问题,已经在现有的 deep latent variable models 的文献中被广泛观察到。

  3. Flow-based Generative Modelflow-based generative model《Normalizing flows: Introduction and ideas》)建立了一个从潜空间Z$ \mathcal Z $ 到被观测空间observed spaceU$ \mathcal U $ 的可逆变换。 生成过程定义为:

    (15)zpZ(z),u=fϕ(z)

    其中:

    • zpZ(z)$ \mathbf z\sim p_\mathcal Z(\mathbf z) $ 为先验分布。

    • f:ZU$ f:\mathcal Z\rightarrow \mathcal U $ 为可逆变换。

    根据 change-of-variables 定理,可观察到的u$ \mathbf u $ 的概率密度函数 probabilistic density function: PDF 为:

    (16)pU(u)=pZ(fϕ1(u))|detfϕ1(u)u|

    在我们的方法中,我们通过最大化从标准高斯潜变量生成 BERT sentence embedding 的可能性来学习 flow-based generative model 。换句话说,base 分布pZ(z)$ p_\mathcal Z(\mathbf z) $ 是标准高斯分布,我们将抽取的 BERT sentence embedding 视为被观测空间U$ \mathcal U $ 。我们通过以下方程以完全无监督的方式最大化U$ \mathcal U $ 的边际概率:

    (17)maxϕEu=BERT(sentence),sentenceD[logpZ(fϕ1(u))+log|detfϕ1(u)u|]

    其中:D$ \mathcal D $ 为数据集,即句子的集合。

    请注意,在训练期间,只有flow 参数被优化,而BERT 参数保持不变。最终,我们学习了一个可逆的映射函数fϕ1$ f_\phi^{-1} $ ,它可以将每个BERT sentence embeddingu$ \mathbf u $ 转化为 latent Gaussian representationz$ \mathbf z $ ,而不损失信息。

    可逆映射fϕ$ f_\phi $ 被参数化为一个神经网络,其架构通常被精心设计以保证其可逆性。此外,行列式|detfϕ1(u)u|$ \left|\det \frac{\partial f^{-1}_\phi(\mathbf u)}{\partial \mathbf u}\right| $ 也应该很容易计算,以便使最大似然训练变得可行。在我们的实验中,我们遵循 Glow 的设计(《Glow: Generative flow with invertible 1x1 convolutions》)。Glow 模型是由多个可逆变换堆叠而成,即 actnorm 、可逆1 * 1 卷积、以及 affine coupling layer 。 我们通过用 additive coupling 取代 affine coupling 来简化模型,以降低模型的复杂性,并用 random permutation 取代可逆1 * 1 卷积,从而避免数值误差。

    具体而言,flow-based model 由一组堆叠的可逆变换层所组成,即f=f1f2fK$ f=f_1\circ f_2\circ\cdots \circ f_K $ ,一共K$ K $ 层。每一层fi:xy$ f_i: \mathbf x\rightarrow \mathbf y $ 为一个 additive coupling layer,公式为:

    (18)y1:d=x1:d,yd+1:D=xd+1:D+gψ(x1:d)

    其中:gψ$ g_\psi $ 可以被参数化为一个深度神经网络;xRd+D$ \mathbf x \in \mathbb R^{d+D} $ 为d+D$ d+D $ 维的。

    如果仅仅只是简单地堆叠多层 additive coupling layer,可以发现每一层输出的前d$ d $ 维的内容保持不变。为此,在每一层之后,都需要交换需要变换的维度。

    additive coupling layer 的逆变换fi1:yx$ f_i^{-1} : \mathbf y\rightarrow \mathbf x $ 的公式为:

    (19)x1:d=y1:d,xd+1:D=yd+1:Dgψ(y1:d)

    论文的核心在于这个 flow-based model,网络结构(多少层、有没有 batch normalization 等等)没有说明。网络优化的目标函数也没有说明。

34.3 实验

  1. 在整个实验中,我们采用 BERT 的官方 Tensorflow 代码作为我们的 codebase 。请注意,我们将最大的序列长度改为 64 ,以减少对 GPU 内存的消耗。对于 siamese BERTNLI finetuning ,我们遵循 SBERT 中的设置(epochs=1 、学习率为 3e-5、以及 batch size =16 )。我们的结果可能与他们公布的结果不同。作者在 https://github.com/UKPLab/sentence-transformers/issues/50 中提到,这是一个常见的现象,可能与随机数种子有关。请注意,他们的实现依赖于 HuggingfaceTransformers repository 。这也可能导致具体结果之间的差异。

    我们对 flow 的实现是由 GLOW 的官方 repository 以及 Tensor2tensor 库的实现而改编的。我们的flow 模型的超参数在下表中给出。在target 数据集上,我们以 1e-3 的学习率对 flow 参数学习一个 epoch ;在NLI 数据集上,我们以 2e-5 的学习率对 flow 参数学习 0.15epoch 。优化器是 Adam

    在我们对 STS-B 的初步实验中,我们在 STS-B 的数据集上调优超参数。从经验上看,与 learning schedule 相比,架构超参数对性能的影响不大。之后,我们在其他数据集上工作时不再调优超参数。根据经验,我们发现 flow 的超参数在不同的数据集上并不敏感。

34.3.1 语义文本相似性

  1. 数据集:STS benchmark (STS-B)SICK-Relatedness (SICK-R)STS tasks 2012 - 2016 等七个数据集。

    我们通过 SentEval 工具包获得所有这些数据集。这些数据集为每个 sentence pair 提供了 0 ~ 5 之间的细粒度的 gold standard semantic similarity

  2. 评估程序:我们遵循先前工作中的程序,如用于 STS 任务的 SBERT 。预测相似性包括两个步骤:

    • 首先,我们用一个句子编码器为每个句子获得 sentence embedding

    • 然后,我们计算 input sentence pair 的两个 embedding 之间的余弦相似度,作为我们的模型预测的相似度。

    报告中的数字是 predicted similaritygold standard similarity 之间的 Spearman 相关系数,这与 SBERT 中的方法相同。

  3. 配置:我们在实验中同时考虑 BERT_baseBERT_large 。具体来说,我们使用最后一层或两层的 BERT context embeddings 的平均池化作为 sentence embedding ,这种方式的性能优于 [CLS] embedding 。有趣的是,我们的初步探索表明,与仅对最后一层进行平均池化相比,对 BERT 的最后两层进行平均池化(用 -last2avg 表示)一直产生更好的结果。因此,在评估我们自己的方法时,我们选择 -last2avg 作为默认配置。

    在我们的方法中,flow-based objective 被最大化,并且 BERT 参数保持不变而仅更新 invertible mappingflow model 默认是通过完整的目标数据集(train + validation + test )学习的。我们将这种配置记做 flow (target) 。请注意,虽然我们使用了整个目标数据集的句子,但学习 flow 并不使用任何标签进行训练,因此它是对 BERT sentence embedding space 的一个纯粹的无监督校准。

    我们还测试了在 SNLIMNLIconcatenation 上学到的flow-based model ,以进行比较(flow (NLI) )。concatenated NLI 数据集包括大量的 sentence pairSNLI 570K + MNLI 433K )。注意,"flow (NLI)" 不需要任何监督标签。当在 NLI 语料库上拟合 flow 时,我们只使用原始句子而不是 entailment labelflow (NLI) setting 背后的一个直觉是,与Wikipedia 的句子(BERT在其上进行了预训练)相比,NLISTS 的原始句子都更简单、更短。这意味着 NLI-STS 的差异可能比 Wikipedia-STS 的差异相对要小。

    我们在两种情况下进行了实验:

    • 当外部标记数据不可用时。这是一个自然的设置,我们用无监督的目标来学习 flow 参数(即,maxϕEu$ \max_\phi \mathbb E_{\mathbf u } $ ),同时 BERT 参数是不变的。我们将这种方式称作 BERT-flow

    • 我们首先在 SNLI+MNLI 文本对应分类任务上以 siamese 方式微调 BERTSBERT)。对于 BERT-flow ,我们进一步学习 flow 参数。这种设置是为了与利用 NLI监督的 SOTA 结果进行比较(SBERT)。我们将这两个不同的模型分别表示为 BERT-NLIBERT-NLI-flow

  4. 不使用 NLI 监督的结果如下表所示:

    • 原始的 BERT sentence embedding (采用 BERT_baseBERT_large )未能超过 averaged GloVe embedding

    • BERT 模型的最后两层进行平均池化可以一致地改善结果。

      仅仅采用 last2avg 就能大幅提升效果!

    • 对于 BERT_baseBERT_large ,我们提出的 flow-based 方法(BERT-flow (target) )可以进一步提高性能,分别平均提高 5.88 个点和 8.16 个点。

    • 对于大多数数据集来说,在目标数据集上学习 flow 导致了比在NLI 上学习 flow 带来更大的性能提升。

      唯一的例外是 SICK-R ,在 NLI 上训练flow 的效果更好。我们认为这是因为 SICK-R 是同时为 entailmentrelatedness 而收集的。由于 SNLIMNLI 也被收集用于 textual entailment 评估,SICK-RNNLI 之间的分布差异可能相对较小。另外,由于 NLI 数据集的规模更大,所以在NNLI 上学习 flow 的性能更强也就不奇怪了。

  5. 使用 NLI 监督的结果如下表所示:与之前完全无监督的结果类似,我们来自可逆变换的各向同性 embedding 空间在大多数情况下能够持续改善 SBERT 基线,并以很大的幅度超过了SOTASBERT/SRoBERTa 结果。

  6. 随机种子的鲁棒性分析:我们在 STS-B 上用不同的随机种子进行了 5 次实验,在 NLI 监督的设置下。下表显示了带有标准差和中位数的结果。尽管 NLI finetuning 的方差不可忽略,但我们提出的 flow-based 的方法始终能带来改进。

34.3.2 无监督的 Question-Answer Entailment

  1. 除了语义文本相似性任务外,我们还研究了我们的方法在无监督的 question-answer entailment 上的有效性。我们使用Question Natural Language Inference: QNLI 数据集,这是一个包含110Kquestion-answer pair 的数据集,其中 5K+pair 用于测试集。QNLISQUAD 中抽取问题及其相应的上下文句子,并将每个 pair 标注为 entailmentno entailment 。在本文中,我们进一步将 QNLI 调整为一个无监督的任务。一个问题和一个答案之间的相似性可以通过计算它们的 sentence embedding 的余弦相似度来预测。我们将 entailment 视为 1no entailment 视为 0 ,并用 AUC 来评估方法的性能。

    如下表所示,我们的方法在 QNLI 的验证集上一致地提高了 AUC 。同时,与在 NLI 上学习的 flow 相比,在 target 数据集上学习 flow 可以产生更好的结果。

34.3.3 和其他 Embedding Calibration Baselines 相比

  1. 在传统的 word embedding 的文献中,《A simple but tough-to-beat baseline for sentence embeddings》《All-but-the-top: Simple and effective postprocessing for word representations》 也发现了 embedding 空间的各向异性现象,他们提供了几种方法来鼓励各向同性 isotropy

    • Standard Normalization: SN:在这个想法中,我们通过计算 sentence embedding 的均值μ$ \vec\mu $ 和标准差σ$ \vec\sigma $ ,从而对 embedding 进行简单的后处理,并通过uμσ$ \frac{\mathbf u - \vec\mu}{\vec\sigma} $ 将 embedding 归一化。

    • Nulling Away Top-k Singular Vectors: NATSV《All-but-the-top: Simple and effective postprocessing for word representations》 发现,通过平均池化传统 word embedding 从而得到的 sentence embedding 往往有一个快速衰减的奇异谱。他们声称,通过将 top -k 个奇异向量 singular vectors 归零,可以避免 embedding 的各向异性,实现更好的语义相似性表现。

    我们在 STS-B 数据集上与这些 embedding calibration 方法进行比较,结果如下表所示:

    • SN 有助于提高性能,但它落后于 NATSV 。这意味着 standard normalization 不能从根本上消除各向异性。通过结合这两种方法,并在验证集上仔细调优k$ k $ ,可以实现进一步的改进。

    • 我们的方法仍然产生了更好的结果。我们认为,NATSV 可以帮助消除各向异性,但它也可能丢弃 nulled vectors 中的一些有用信息。相反,我们的方法直接学习了一个可逆映射到各向同性的潜在空间,而没有丢弃任何信息。

34.3.4 语义相似性 Vs 词汇相似性

  1. 除了语义相似性 semantic similarity ,我们还进一步研究了由不同 sentence embedding 方法诱导的词汇相似性 lexical similarity 。具体来说,我们使用编辑距离 edit distance 作为一对句子之间词汇相似性的衡量标准,并关注句子相似性(BERT sentence embedding 的余弦相似性)和编辑距离之间的相关性。在由许多 sentence pair 组成的数据集中,我们计算了语义相似性和编辑距离之间的 Spearman相关系数ρ$ \rho $ ,以及不同模型的语义相似性之间的 Spearman 相关系数。我们在 STS-B 数据集上进行实验,并将人类标注的 gold similarity 纳入该分析。

    • BERT-Induced SimilarityLexical Similarity 过度相关:下表显示,BERT 诱导的相似性与编辑距离之间的相关性非常强(ρ=50.49$ \rho = -50.49 $ ),相比之下 gold standard labels 与编辑距离的相关性小得多(ρ=24.61$ \rho = -24.61 $ )。这种现象在 Figure 2 中也可以观察到。特别是,对于编辑距离为4$ \le 4 $ 的 sentence pair (用绿色突出显示),BERT 诱导的相似性与编辑距离极为相关。

      Lexical Similarity 由编辑距离来衡量,刻画了两个句子在 word-level 上的相似性,而不是语义相似性。

      然而,gold standard 语义相似度与编辑距离的相关性并不明显。换句话说,经常出现这样的情况:通过修改一个词,一个句子的语义就会发生巨大的变化。"I like this restaurant""I dislike this restaurant" 这两个句子只相差一个词,但表达的语义是相反的。在这种情况下,BERT embedding 可能会失败。因此,我们认为,BERT sentence embeddinglexical proximity 过高,会破坏其诱导的语义相似性。

    • Flow-Induced SimilarityLexical Similarity 表现出较低的相关性:通过将原始的 BERT sentence embedding 转化到学到的各向同性的潜在空间,embedding-induced similarity 不仅与gold standard 的语义相似性更加一致,而且与 lexical similarity 的相关性也更低,如下表的最后一行所示。这一现象在编辑距离4$ \le 4 $ 的例子中尤为明显(Figure 2 中以绿色标示)。这表明我们提出的 flow-based 的方法可以有效地抑制 lexical similarityembedding 空间的过度影响。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文