算法-百度新闻首页的算法?
像百度新闻首页这种应用是如何做到自动抓取新闻,差归类(应该不是人工的吧)。如何判断一篇文章属于哪个分类? 一般要用到哪方面的知识?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
像百度新闻首页这种应用是如何做到自动抓取新闻,差归类(应该不是人工的吧)。如何判断一篇文章属于哪个分类? 一般要用到哪方面的知识?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
抓取部分就不用说了吧
自动分类基本上都是关键词在里面出现的频率、权重等进行归类的。
首先定义分类各关键词的权重:
政治类:国家(0.3)、政协(0.5),香港0.01。。。。。
娱乐类:某明星0.1,香港0.2。。。。
有一条新闻:里面国家出现M次,香港出现N次
计算各个新闻最终的权重。
如果发现新闻在政治类里面算出来的结果大,则是政治新闻,如果在娱乐类里算出来的数大,就是娱乐新闻。
不知道能不能看懂。。。。。。。
1、必须要有一组原始数据集,这组数据集是已经正确分好类的新闻,往往可以从新浪、网易这些门户网站购买到。
2、通过一些文本相似度算法,计算某一篇新的新闻与哪些已有新闻的相似度最大,把该新闻分类过去就行了。这个过程通常称为“机器学习 分类问题”,最简单的可以使用朴素贝叶斯分类器。
3、要了解更多,可以参考这篇文章。