算法-百度新闻首页的算法?

发布于 2016-12-16 11:24:57 字数 72 浏览 1210 评论 2

像百度新闻首页这种应用是如何做到自动抓取新闻,差归类(应该不是人工的吧)。如何判断一篇文章属于哪个分类? 一般要用到哪方面的知识?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

泛泛之交 2017-01-24 14:37:17

抓取部分就不用说了吧

自动分类基本上都是关键词在里面出现的频率、权重等进行归类的。
首先定义分类各关键词的权重:
政治类:国家(0.3)、政协(0.5),香港0.01。。。。。
娱乐类:某明星0.1,香港0.2。。。。

有一条新闻:里面国家出现M次,香港出现N次
计算各个新闻最终的权重。

如果发现新闻在政治类里面算出来的结果大,则是政治新闻,如果在娱乐类里算出来的数大,就是娱乐新闻。

不知道能不能看懂。。。。。。。

夜无邪 2016-12-20 05:06:15

1、必须要有一组原始数据集,这组数据集是已经正确分好类的新闻,往往可以从新浪、网易这些门户网站购买到。

2、通过一些文本相似度算法,计算某一篇新的新闻与哪些已有新闻的相似度最大,把该新闻分类过去就行了。这个过程通常称为“机器学习 分类问题”,最简单的可以使用朴素贝叶斯分类器。

3、要了解更多,可以参考这篇文章

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文