文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
4.4 小结
在本章中,我们讨论了一个更高级的文本分组方式。由于我们允许每个文档出现在多个分组中,所以它比简单聚类更为灵活。我们使用gensim 探索了基本的LDA模型。gensim 是一个新程序包,但将它整合进标准Python的科学生态系统中很容易。
主题模型最初是在文本处理中开发出来的,可以说是简单易懂。但在第10章中,我们将会看到这些技术还可以用于图像。在绝大多数现代计算机视觉研究中,主题模型都是非常重要的。事实上,与前面几章不同,本章非常接近于机器学习算法研究的最前沿。原始的LDA算法是2003年在一个学术期刊上发表出来的。gensim 所使用的对维基百科进行处理的方法,是在2010年开发出来的。而HDP算法始于2011年。这个领域的研究一直在进行,你可以发现它有很多变种,以及有着美妙名字的模型,例如印度自助餐过程(Indian buffet process,注意不要跟中国餐馆过程——Chinese restaurant process——混淆,它们是不同的模型),或者弹球盘分配(Pachinkallocation;弹球盘是一款日本游戏,它是老虎机和弹球的杂合)。当前,这些工作尚处于研究阶段。几年之后,它们才可能用于解决实际问题。
现在,我们已经重温了一些主流机器学习模型,例如分类、聚类和主题模型。在下一章中,我们将会回到分类问题,探索一些高级算法和方法。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论