当前位置：文江博客话题详情

我应该用什么来爬取许多新闻文章？

发布于 2024-10-05 02:06:55 字数 202 浏览 5 评论 0原文

我有一个自然语言处理项目，但为此我需要从雅虎新闻、谷歌新闻或博客等来源抓取许多网络文章......

我是一名java开发人员（所以我宁愿使用java工具）。我想我可以自己解析每个源网站并使用 HttpClient / XPath 提取文章，但我有点懒:) 有没有办法让我不必为每个源创建一个解析器？

（我不仅对新文章感兴趣，还对2000年至今的文章感兴趣）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

百变从容 2024-10-12 02:06:55

NLP 最困难的部分是获取可以使用的数据。其他一切都只是数学。

由于涉及版权问题，除了每个新闻来源的网站之外，可能很难找到大量新闻文章。如果您不需要最新新闻，最好的选择可能是查看语言数据联盟的英语Gigaword语料库；如果您在大学，可能已经存在可供您免费使用数据的关系。

如果您需要实际抓取和解析网站，现在您可能会发现必须为各种新闻网站编写特定的解析器，以确保获得正确的文本。然而，一旦更多的网站开始使用 HTML5，通过使用文章标签。

要进行实际的爬行，上一个问题可以为您指出在一些有用的方向。

回复收藏 0 原文

~没有更多了~

关于作者

坏尐絯

暂无简介

0 文章

0 评论

605 人气

关注发私信

小瓶盖

文章 0 评论 0

关注

wxsp_Ukbq8xGR

文章 0 评论 0

关注

1638627670

文章 0 评论 0

关注

仅一夜美梦

文章 0 评论 0

关注

夜访吸血鬼

文章 0 评论 0

关注

近卫軍团

文章 0 评论 0

友情链接

文江博客

我应该用什么来爬取许多新闻文章？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者