返回介绍

数学基础

统计学习

深度学习

工具

Scala

一、向量空间模型 VSM

发布于 2023-07-17 23:38:25 字数 7798 浏览 0 评论 0 收藏 0

  1. 给定包含N$ N $ 篇文档的语料库D={D1,D2,,DN}$ \mathbb D =\{\mathcal D_1,\mathcal D_2,\cdots,\mathcal D_N \} $ ,所有的单词来自于包含V$ V $ 个词汇的词汇表V={word1,word2,,wordV}$ \mathbb V = \{\text{word}_1,\text{word}_2,\cdots,\text{word}_V\} $ ,其中V$ V $ 表示词汇表的大小 。

    每篇文档Di$ \mathcal D_i $ 包含单词序列(wordw1i,wordw2i,,wordwnii)$ (\text{word}_{w_1^i},\text{word}_{w_2^i},\cdots,\text{word}_{w_{n_i}^i} ) $ ,其中wji{1,2,,V}$ w_j^i \in \{1,2,\cdots,V\} $ 表示第i$ i $ 篇文档的第j$ j $ 个单词在词汇表中的编号,ni$ n_i $ 表示第i$ i $ 篇文档包含ni$ n_i $ 个单词。

    词的表达任务要解决的问题是:如何表示每个词汇wordv$ \text{word}_v $ 。

  2. 最简单的表示方式是one-hot 编码:对于词汇表中第v$ v $ 个单词wordv$ \text{word}_v $ ,将其表示为wordv(0,0,,0,1,0,,0)T$ \text{word}_v \rightarrow (0,0,\cdots,0,1,0,\cdots,0)^T $ ,即第v$ v $ 位取值为1,剩余位取值为0

    这种表示方式有两个主要缺点:

    • 无法表达单词之间的关系:对于任意一对单词(wordi,wordj)$ (\text{word}_i,\text{word}_j) $ ,其向量距离均为2$ \sqrt 2 $ 。

    • 向量维度过高:对于中文词汇表,其大小可能达到数十万,因此one-hot 向量的维度也在数十万维。这对于存储、计算都消耗过大。

  3. BOW:Bag of Words:词在文档中不考虑先后顺序,这称作词袋模型。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文