返回介绍

4.4 小结

发布于 2024-01-30 22:34:09 字数 605 浏览 0 评论 0 收藏 0

在本章中,我们讨论了一个更高级的文本分组方式。由于我们允许每个文档出现在多个分组中,所以它比简单聚类更为灵活。我们使用gensim 探索了基本的LDA模型。gensim 是一个新程序包,但将它整合进标准Python的科学生态系统中很容易。

主题模型最初是在文本处理中开发出来的,可以说是简单易懂。但在第10章中,我们将会看到这些技术还可以用于图像。在绝大多数现代计算机视觉研究中,主题模型都是非常重要的。事实上,与前面几章不同,本章非常接近于机器学习算法研究的最前沿。原始的LDA算法是2003年在一个学术期刊上发表出来的。gensim 所使用的对维基百科进行处理的方法,是在2010年开发出来的。而HDP算法始于2011年。这个领域的研究一直在进行,你可以发现它有很多变种,以及有着美妙名字的模型,例如印度自助餐过程(Indian buffet process,注意不要跟中国餐馆过程——Chinese restaurant process——混淆,它们是不同的模型),或者弹球盘分配(Pachinkallocation;弹球盘是一款日本游戏,它是老虎机和弹球的杂合)。当前,这些工作尚处于研究阶段。几年之后,它们才可能用于解决实际问题。

现在,我们已经重温了一些主流机器学习模型,例如分类、聚类和主题模型。在下一章中,我们将会回到分类问题,探索一些高级算法和方法。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文