二、LSA

发布于 2023-07-17 23:38:25 字数 35738 浏览 0 评论 0 收藏 0

向量空间模型主要用于文档的表达。
向量空间模型假设单词和单词之间是相互独立的，每个单词代表一个独立的语义单元。实际上该假设很难满足：
- 文档中的单词和单词之间存在一定关联性，单词和其前面几个单词、后面几个单词可能存在语义上的相关性，而向量空间模型忽略了这种上下文的作用。
- 文档中存在很多的一词多义和多词同义的现象，每个单词并不代表一个独立的语义单元。

1.1 文档-单词矩阵

给定语料库 $D$ $ \mathbb D $ 和词汇表 $V$ $ \mathbb V $ ，定义文档-单词 矩阵为：
$\begin{matrix} (1) & \begin{array}{cccccc} {word}_{1} & {word}_{2} & {word}_{3} & \dots & {word}_{V} \\ D_{1} & 0 & 0 & 1 & \dots & 0 \\ D_{2} & 1 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ D_{N} & 0 & 1 & 1 & \dots & 0 \end{array} \end{matrix}$
令矩阵为 $D$ $ \mathbf D $ ，则： $D (i, j) = 1$ $ D(i,j)=1 $ 表示文档 $D_{i}$ $ \mathcal D_i $ 中含有单词 ${word}_{j}$ $ \text{word}_j $ ； $D (i, j) = 0$ $ D(i,j)=0 $ 表示文档 $D_{i}$ $ \mathcal D_i $ 中不含单词 ${word}_{j}$ $ \text{word}_j $ 。
于是文档 $D_{i}$ $ \mathcal D_i $ 表示为： $D_{i} \to (0, 1, 0, 1, \dots, 0)^{T}$ $ \mathcal D_i \rightarrow (0,1,0,1,\cdots,0)^T $ ，其中文档 $D_{i}$ $ \mathcal D_i $ 中包含的单词对应的位置取值为1，其它位置取值为 0 。
事实上，文档的上述表达并未考虑单词的顺序，也未考虑单词出现的次数。一种改进策略是考虑单词出现的次数，从而赋予文档-单词 矩阵以不同的权重：
$\begin{matrix} (2) & \begin{matrix} D = [\begin{matrix} w_{1, 1} & w_{1, 2} & w_{1, 3} & \dots & w_{1, V} \\ w_{2, 1} & w_{2, 2} & w_{2, 3} & \dots & w_{2, V} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ w_{N, 1} & w_{N, 2} & w_{N, 3} & \dots & w_{N, V} \end{matrix}] \end{matrix} \end{matrix}$
其中 $w_{i, j}$ $ w_{i,j} $ 表示单词 ${word}_{j}$ $ \text{word}_j $ 在文档 $D_{i}$ $ \mathcal D_i $ 中的权重。
- 如果单词 ${word}_{j}$ $ \text{word}_j $ 在文档 $D_{i}$ $ \mathcal D_i $ 中未出现，则权重 $w_{i, j} = 0$ $ w_{i,j}=0 $
- 如果单词 ${word}_{j}$ $ \text{word}_j $ 在文档 $D_{i}$ $ \mathcal D_i $ 中出现，则权重 $w_{i, j} \neq 0$ $ w_{i,j}\ne 0 $
权重 $w_{i, j}$ $ w_{i,j} $ 有两种常用的选取方法：
- 单词权重等于单词出现的频率TF： $w_{i, j} = T F (D_{i}, {word}_{j})$ $ w_{i,j} = TF(\mathcal D_i,\text{word}_j) $ 。
  - 函数 $T F (D_{i}, {word}_{j})$ $ TF(\mathcal D_i,\text{word}_j) $ 返回单词 ${word}_{j}$ $ \text{word}_j $ 在文档 $D_{i}$ $ \mathcal D_i $ 中出现的频数。
  - 其缺点是：一些高频词（如：我们，是，大家）以较大的权重出现在每个文档中，这意味着对每篇文档这些高频词是比较重要的。事实上对于绝大多数 NLP 任务，将这些词过滤掉不会有任何影响。
- 单词权重等于单词的TF-IDF： $w_{i, j} = T F (D_{i}, {word}_{j}) \times I D F ({word}_{j})$ $ w_{i,j} = TF(\mathcal D_i,\text{word}_j) \times IDF(\text{word}_j) $ 。
  - 函数 $I D F ({word}_{j})$ $ IDF(\text{word}_j) $ 是单词的逆文档频率： $I D F ({word}_{j}) = \log \frac{N}{D F ({word}_{j})}$ $ IDF(\text{word}_j) = \log \frac{N}{DF(\text{word}_j)} $ 。其中： $N$ $ N $ 为语料库的文档数量， $D F ({word}_{j})$ $ DF(\text{word}_j) $ 为出现单词 ${word}_{j}$ $ \text{word}_j $ 的文档的数量， $\frac{D F ({word}_{j})}{N}$ $ \frac {DF(\text{word}_j)}{N} $ 为单词 ${word}_{j}$ $ \text{word}_j $ 出现在一篇文档中的概率。
  - TF-IDF 对于高频词进行降权。如果单词 ${word}_{j}$ $ \text{word}_j $ 出现在大多数文档中，则 $\frac{D F ({word}_{j})}{N}$ $ \frac {DF(\text{word}_j)}{N} $ 较大，因此 $I D F ({word}_{j})$ $ IDF(\text{word}_j) $ 会较小。
TF-IDF 不仅考虑了单词的局部特征，也考虑了单词的全局特征。
- 词频 $T F (D_{i}, {word}_{j})$ $ TF(\mathcal D_i,\text{word}_j) $ 描述了单词 ${word}_{j}$ $ \text{word}_j $ 在文档 $D_{i}$ $ \mathcal D_i $ 中的局部统计特征。
- 逆文档频率 $I D F ({word}_{j})$ $ IDF(\text{word}_j) $ 描述了单词 ${word}_{j}$ $ \text{word}_j $ 在语料库 $D$ $ \mathbb D $ 中的全局统计特征。

1.2 相似度

给定 文档-单词 矩阵，则很容易得到文档的向量表达： $D_{i} \to (w_{i, 1}, w_{i, 2}, \dots, w_{i, V})^{T}$ $ \mathcal D_i \rightarrow (w_{i,1},w_{i,2},\cdots,w_{i,V})^T $ 。
给定文档 $D_{i}, D_{j}$ $ \mathcal D_i,\mathcal D_j $ ，则文档的相似度为：
$\begin{matrix} (3) & s i m i l a r (D_{i}, D_{j}) = \cos ({\vec{w}}_{i}, {\vec{w}}_{j}) = \frac{{\vec{w}}_{i} \cdot {\vec{w}}_{j}}{| | {\vec{w}}_{i} | | \cdot | | {\vec{w}}_{j} | |} \end{matrix}$
其中 ${\vec{w}}_{i} = (w_{i, 1}, w_{i, 2}, \dots, w_{i, V})^{T}, {\vec{w}}_{j} = (w_{j, 1}, w_{j, 2}, \dots, w_{j, V})^{T}$ $ \mathbf{\vec w}_i= (w_{i,1},w_{i,2},\cdots,w_{i,V})^T,\quad \mathbf{\vec w}_j= (w_{j,1},w_{j,2},\cdots,w_{j,V})^T $ 。
也可以使用其它方式的相似度，如 $L_{2}$ $ L_2 $ 距离相似度。