五、FastText

发布于 2023-07-17 23:38:25 字数 53701 浏览 0 评论 0 收藏 0

学习词向量的所有无监督方法最终都是基于语料库的单词共现统计，因此这些模型之间存在共性。
词向量学习算法有两个主要的模型族：
- 基于全局矩阵分解的方法，如：latent semantic analysis:LSA 。
  - 优点：能够有效的利用全局的统计信息。
  - 缺点：在单词类比任务（如：国王 vs 王后 类比于男人 vs 女人）中表现相对较差。
- 基于局部上下文窗口的方法，如：word2vec。
  - 优点：在单词类比任务中表现较好。
  - 缺点：因为word2vec 在独立的局部上下文窗口上训练，因此难以利用单词的全局统计信息。
Global Vectors for Word Representation:GloVe 结合了LSA 算法和Word2Vec 算法的优点，既考虑了全局统计信息，又利用了局部上下文。

4.1 原理

设单词-单词 共现矩阵为 $X$ $ \mathbf X $ ，其中 $X_{i, j}$ $ X_{i,j} $ 表示在整个语料库中单词 ${word}_{j}$ $ \text{word}_j $ 在单词 ${word}_{i}$ $ \text{word}_i $ 上下文中出现的次数。令：

$X_{i} = \sum_{k = 1}^{V} X_{i, k}$ $ X_i =\sum_{k=1}^V X_{i,k} $ ，它表示：单词 ${word}_{i}$ $ \text{word}_i $ 上下文中出现的所有单词的总数。
$P_{i, j} = P ({word}_{j} ∣ {word}_{i}) = \frac{X_{i, j}}{X_{i}}$ $ P_{i,j} = P(\text{word}_j\mid \text{word}_i) = \frac {X_{i,j}}{X_i} $ ，它表示：单词 ${word}_{j}$ $ \text{word}_j $ 出现在单词 ${word}_{i}$ $ \text{word}_i $ 的上下文中的概率。
$R a t i o_{i, j}^{k} = \frac{P_{i, k}}{P_{j, k}}$ $ Ratio_{i,j}^k=\frac{P_{i,k}}{P_{j,k}} $ ，它表示：单词 ${word}_{k}$ $ \text{word}_k $ 出现在单词 ${word}_{i}$ $ \text{word}_i $ 的上下文中的概率，相对于单词 ${word}_{k}$ $ \text{word}_k $ 出现在单词 ${word}_{j}$ $ \text{word}_j $ 的上下文中的概率的比值。

从经验中可以发现以下规律：

	单词 ${word}_{k}$ $ \text{word}_k $ 和单词 ${word}_{i}$ $ \text{word}_i $ 相关	单词 ${word}_{k}$ $ \text{word}_k $ 和单词 ${word}_{i}$ $ \text{word}_i $ 不相关
单词 ${word}_{k}$ $ \text{word}_k $ 和单词 ${word}_{j}$ $ \text{word}_j $ 相关	$R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 趋近于 1	$R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 比较小
单词 ${word}_{k}$ $ \text{word}_k $ 和单词 ${word}_{j}$ $ \text{word}_j $ 不相关	$R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 比较大	$R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 趋近于 1

因此 $R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 能够反映单词之间的相关性。

假设单词 ${word}_{i}, {word}_{j}, {word}_{k}$ $ \text{word}_i,\text{word}_j,\text{word}_k $ 的词向量分别为 ${\vec{w}}_{i}, {\vec{w}}_{j}, {\vec{w}}_{k}$ $ \mathbf{\vec w}_i,\mathbf{\vec w}_j,\mathbf{\vec w}_k $ 。
GloVe 认为：这三个单词的词向量经过某个函数的映射之后等于 $R a t i o_{i, j}^{k}$ $ Ratio_{i,j}^k $ 。即：词向量中包含了共现矩阵的信息。
假设这个映射函数为 $F$ $ F $ ，则有：
$\begin{matrix} (101) & F ({\vec{w}}_{i}, {\vec{w}}_{j}, {\vec{w}}_{k}) = R a t i o_{i, j}^{k} = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
现在的问题是 $F (\cdot)$ $ F(\cdot) $ 未知，词向量 ${\vec{w}}_{i}, {\vec{w}}_{j}, {\vec{w}}_{k}$ $ \mathbf{\vec w}_i,\mathbf{\vec w}_j,\mathbf{\vec w}_k $ 也是未知。如果能够确定 $F (\cdot)$ $ F(\cdot) $ ，则可以求解词向量。
由于 $F (\cdot)$ $ F(\cdot) $ 映射的是向量空间，而向量空间是一个线性空间。因此从右侧的除法 $\frac{P_{i, k}}{P_{j, k}}$ $ \frac{P_{i,k}}{P_{j,k}} $ 可以联想到对 ${\vec{w}}_{i}$ $ \mathbf{\vec w}_i $ 和 ${\vec{w}}_{j}$ $ \mathbf{\vec w}_j $ 做减法。即 $F (\cdot)$ $ F(\cdot) $ 的形式为：
$\begin{matrix} (102) & F ({\vec{w}}_{i} - {\vec{w}}_{j}, {\vec{w}}_{k}) = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
由于 ${\vec{w}}_{i} - {\vec{w}}_{j}$ $ \mathbf{\vec w}_i-\mathbf{\vec w}_j $ 和 ${\vec{w}}_{k}$ $ \mathbf{\vec w}_k $ 均为向量，而 $\frac{P_{i, k}}{P_{j, k}}$ $ \frac{P_{i,k}}{P_{j,k}} $ 为标量。因此可以联想到向量的内积。即 $F (\cdot)$ $ F(\cdot) $ 的形式为：
$\begin{matrix} (103) & F (({\vec{w}}_{i} - {\vec{w}}_{j})^{T} {\vec{w}}_{k}) = F ({\vec{w}}_{i}^{T} {\vec{w}}_{k} - {\vec{w}}_{j}^{T} {\vec{w}}_{k}) = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
上式左边为差的形式，右边为商的形式。因此联想到函数 $\exp (\cdot)$ $ \exp(\cdot) $ 。即 $F (\cdot)$ $ F(\cdot) $ 的形式为：
$\begin{matrix} (104) & \begin{matrix} F (\cdot) = \exp (\cdot) \\ {\vec{w}}_{i}^{T} {\vec{w}}_{k} - {\vec{w}}_{j}^{T} {\vec{w}}_{k} = \log P_{i, k} - \log P_{j, k} \end{matrix} \end{matrix}$
要想使得上式成立，只需要令 ${\vec{w}}_{i}^{T} {\vec{w}}_{k} = \log P_{i, k}, {\vec{w}}_{j}^{T} {\vec{w}}_{k} = \log P_{j, k}$ $ \mathbf{\vec w}_i^T\mathbf{\vec w}_k = \log P_{i,k},\quad \mathbf{\vec w}_j^T\mathbf{\vec w}_k = \log P_{j,k} $ 即可。
- 向量的内积具有对称性，即 ${\vec{w}}_{i}^{T} {\vec{w}}_{k} = {\vec{w}}_{k}^{T} {\vec{w}}_{i}$ $ \mathbf{\vec w}_i^T\mathbf{\vec w}_k=\mathbf{\vec w}_k^T\mathbf{\vec w}_i $ 。而 $\log \frac{X_{i, k}}{X_{i}} \neq \log \frac{X_{k, i}}{X_{k}}$ $ \log \frac{X_{i,k}} {X_i} \ne \log \frac{X_{k,i}}{X_k} $ ，即： $\log P_{i, k} \neq \log P_{k, i}$ $ \log P_{i,k} \ne \log P_{k,i} $ 。
  为了解决这个问题，模型引入两个偏置项：
  $\begin{matrix} (105) & \log X_{i, k} = {\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} \end{matrix}$
- 上面的公式仅仅是理想状态，实际上只能要求左右两边尽可能相等。于是设计代价函数为：
  $\begin{matrix} (106) & J = \sum_{i, k} {({\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k})}^{2} \end{matrix}$
  其中 $\vec{w}, b, \tilde{b}$ $ \mathbf{\vec w},b,\tilde b $ 均为模型参数。
根据经验，如果两个词共现的次数越多，则这两个词在代价函数中的影响就应该越大。因此可以设计一个权重来对代价函数中的每一项进行加权，权重为共现次数的函数：
$\begin{matrix} (107) & J = \sum_{i, k} f (X_{i, k}) {({\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k})}^{2} \end{matrix}$
其中权重函数应该符合三个条件：
- $f (0) = 0$ $ f(0)=0 $ 。即：如果两个词没有共现过，则权重为 0 。
  这是为了确保 $lim_{x \to 0} f (x) \log^{2} x$ $ \lim _{x\rightarrow 0} f(x) \log^2 x $ 是有限值。
- $f (\cdot)$ $ f(\cdot) $ 是非递减的。即：两个词共现次数越大，则权重越大。
- $f (\cdot)$ $ f(\cdot) $ 对于较大的 $X_{i, k}$ $ X_{i,k} $ 不能取太大的值。即：有些单词共现次数非常大（如单词 的 与其它词的组合），但是它们的重要性并不是很大。
GloVe 论文给出的权重函数 $f (\cdot)$ $ f(\cdot) $ 为：
$\begin{matrix} (108) & \begin{matrix} f (x) = {\begin{cases} {(\frac{x}{x_{max}})}^{α} & if x < x_{max} \\ 1, & otherwise \end{cases} \end{matrix} \end{matrix}$
其中：
- GloVe 论文给出参数 $α$ $ \alpha $ 和 $x_{max}$ $ x_{\max} $ 的经验值为： $α = \frac{3}{4}, x_{max} = 100$ $ \alpha = \frac 34,x_{\max} = 100 $ 。
- GloVe 论文指出： $x_{max}$ $ x_{\max} $ 对模型的性能影响较小。
考虑对所有词向量增加一个常量 $\vec{c}$ $ \mathbf{\vec c} $ ，则有：
$\begin{matrix} (109) & \begin{matrix} ({\vec{w}}_{i} + \vec{c})^{T} ({\vec{w}}_{k} + \vec{c}) + (b_{i} - {\vec{c}}^{T} {\vec{w}}_{i} - \frac{| | \vec{c} | |^{2}}{2}) + ({\tilde{b}}_{k} - {\vec{c}}^{T} {\vec{w}}_{k} - \frac{| | \vec{c} | |^{2}}{2}) - \log X_{i, k} = \\ {\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k} \end{matrix} \end{matrix}$
令 ${\hat{b}}_{i} = b_{i} - {\vec{c}}^{T} {\vec{w}}_{i} - \frac{| | \vec{c} | |^{2}}{2}$ $ \hat b_i = b_i- \mathbf{\vec c}^T\mathbf{\vec w}_i- \frac{||\mathbf{\vec c}||^2}{2} $ ， ${\hat{\tilde{b}}}_{k} = {\tilde{b}}_{k} - {\vec{c}}^{T} {\vec{w}}_{k} - \frac{| | \vec{c} | |^{2}}{2}$ $ \hat {\tilde b}_k=\tilde b_k-\mathbf{\vec c}^T\mathbf{\vec w}_k- \frac{||\mathbf{\vec c}||^2}{2} $ ，则：如果 ${\vec{w}}_{1}, {\vec{w}}_{2}, \dots, {\vec{w}}_{V}$ $ \mathbf{\vec w}_1,\mathbf{\vec w}_2,\cdots,\mathbf{\vec w}_V $ 是Glove 的解，则 ${\vec{w}}_{1} + \vec{c}, {\vec{w}}_{2} + \vec{c}, \dots, {\vec{w}}_{V} + \vec{c}$ $ \mathbf{\vec w}_1+\mathbf{\vec c},\mathbf{\vec w}_2+\mathbf{\vec c},\cdots,\mathbf{\vec w}_V+\mathbf{\vec c} $ 也是Glove 的解。
因此假设 $\vec{c}$ $ \mathbf{\vec c} $ 是一个非常大的值，则会导致几乎所有的词向量都相似。

4.2 应用

GloVe 模型的算法复杂度取决于共现矩阵 $X$ $ \mathbf X $ 中的非零元素的个数，最坏的情况下为 $O (V^{2})$ $ O(V^2) $ 。由于词汇表的数量通常很庞大，因此 $V^{2}$ $ V^2 $ 会非常大。
实际上单词共现的次数满足齐普夫定律(Zipf's Law)，因此算法复杂度较低，约为 $O (| C |)$ $ O(|C|) $ ，其中 $C$ $ C $ 为语料库的大小。
Zipf's Law：如果有一个包含 $n$ $ n $ 个词的文章，将这些词按其出现的频次递减地排序，那么序号 $r$ $ r $ 和其出现频次 $f$ $ f $ 之积 $f \times r$ $ f\times r $ ，将近似地为一个常数，即 $f \times r = c o n s t$ $ f\times r=const $
GloVe 模型评估任务：
- semantic 任务：语义任务。如：'雅典'之于'希腊' = '柏林'之于'_'?
- syntactic 任务：语法任务。如：'dance'之于'dancing' = 'fly'之于'_'?
GloVe 模型性能与语料库大小的关系：
- 在语法任务中，模型性能随着语料库大小的增长而单调增长。
  这是因为语料库越大，则语法的统计结果越可靠。
- 在语义任务中，模型性能与语料库绝对大小无关，而与语料库的有效大小有关。
  有效大小指的是语料库中，与目标语义相关的内容的大小。
GloVe 模型超参数选择：
- 词向量大小：词向量大小越大，则模型性能越好。但是词向量超过 200 维时，维度增加的收益是递减的。
- 窗口对称性：计算一个单词的上下文时，上下文窗口可以是对称的，也可以是非对称的。
  - 对称窗口：既考虑单词左侧的上下文，又考虑单词右侧的上下文。
  - 非对称窗口：只考虑单词左侧的上下文。
    因为语言的阅读习惯是从左到右，所以只考虑左侧的上下文，不考虑右侧的上下文。
- 窗口大小：
  - 在语法任务中，选择小的、非对称的窗口时，模型性能更好。
    因为语法是局部的，所以小窗口即可；因为语法是依赖于单词顺序的，所以需要非对称窗口。
  - 对于语义任务，则需要选择更大的窗口。
    因为语义是非局部的。