3. 基于 SVD 的方法

发布于 2025-02-18 23:44:02 字数 3152 浏览 0 评论 0 收藏 0

这是一种构造词嵌入（即词向量）的方法，我们首先会遍历所有的文本数据集，然后统计词出现的次数，接着用一个矩阵来表示所有的次数情况，紧接着对 X 进行奇异值分解得到一个的分解。然后用的行（rows）作为所有词表中词的词向量。对于矩阵，我们有几种选择，咱们一起来比较一下。

3.1 词-文档矩阵

最初的想法是，我们猜测相互关联的词组同时出现在相同的文件中的概率很高。例如，“银行”、“债券”、“股票”、“钱”等都可能出现在一起。但是，“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会一直一起出现。基于这个想法，我们建立一个词组文档矩阵，具体是这么做的：遍历海量的文件，每次词组 i 出现在文件 j 中时，将的值加 1。不过大家可想而知，这会是个很大的矩阵，而且矩阵大小还和文档个数 M 有关系。所以咱们最好想办法处理和优化一下。

3.2 基于窗口的共现矩阵 X

我们还是用一样的逻辑，不过换一种统计方式，把矩阵记录的词频变成一个相关性矩阵。我们先规定一个固定大小的窗口，然后统计每个词出现在窗口中次数，这个计数是针对整个语料集做的。可能说得有点含糊，咱们一起来看个例子，假定我们有如下的 3 个句子，同时我们的窗口大小设定为 1（把原始的句子分拆成一个一个的词）：
1. I enjoy flying.
2. I like NLP.
3. I like deep learning.
由此产生的计数矩阵如下：