返回介绍

数学基础

统计学习

深度学习

工具

Scala

主题模型

发布于 2023-07-17 23:38:25 字数 638 浏览 0 评论 0 收藏 0

  1. 给包含 $ N $ 篇文档的定语料库 $ \mathbb D =\{\mathcal D_1,\mathcal D_2,\cdots,\mathcal D_N \} $ ,其中 $ \mathcal D_i $ 为第 $ i $ 篇文档,包含 $ n_i $ 个单词。

    语料库的所有单词来自于词汇表 $ \mathbb V = \{\text{word}_1,\text{word}_2,\cdots,\text{word}_V\} $ ,其中 $ V $ 表示词汇表的大小,第 $ j $ 个单词为 $ \text{word}_j $ 。

    注意:文档中的单词标记为 $ w_j $ ,它表示文档中第 $ j $ 个位置的单词为 $ \text{word}_{w_j} $ 。如:文档中第1个位置的单词为 $ w_1 = 100 $ (假设 $ \text{word}_{100} = 我 $ ),则文档中第一个位置的单词为

    因此这里将 $ w $ 来表示文档中的单词(也称作 token ),用 $ v $ 表示词表中的单词。

  2. BOW:Bag of Words:词在文档中不考虑顺序,这称作词袋模型。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文