如何使用 Google 群组讨论抓取工具

发布于 2024-08-20 15:11:21 字数 624 浏览 15 评论 0 原文

作为 RSS 中的一个练习，我希望能够搜索该组中几乎所有 Unix 讨论。

comp.unix.shell

我了解足够的 Python 和了解基本的 RSS，但我陷入困境......如何获取特定日期之间的所有消息，或者至少是第 N 个最近和第 M 个最近之间的所有消息？

高级描述，欢迎伪代码。

谢谢你！

编辑：

我希望能够返回超过 100 条消息，但不要像一次解析 10 条消息那样抓取，例如使用以下 URL：

http://groups.google.com /group/comp.unix.shell/topics?hl=en&start=2000&sa=N

一定有更好的方法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼眸里的那抹悲凉 2024-08-27 15:11:21

抓取 Google 网上论坛违反了 Google 服务条款，特别是以下短语：

使用任何机器人、蜘蛛、网站搜索/检索应用程序或其他设备来检索或索引服务的任何部分，或出于任何未经授权的目的收集有关用户的信息

您确定要公开宣布您这样做吗？您是否对结果的后果视而不见？

回复收藏 0 原文

骄兵必败 2024-08-27 15:11:21

对于 N 最近，似乎您可以传递参数 ?num=50 或 feed url 中的某些内容

例如，来自 comp.unix.shell 组的 50 条新消息

http://groups.google.com/group/comp.unix.shell/feed/ atom_v1_0_msgs.xml?num=50

然后选择一个 feedparser 程序，例如 Universal Feed Parser

有 feedparser 中的 >.update_parsed 选项，您可以使用它来检查特定日期范围内的消息

>>> e.updated_parsed              # parses all date formats
(2005, 11, 9, 11, 56, 34, 2, 313, 0)

For N recent, seems like you could pass parameter ?num=50 or something in the feed url

For example, 50 new messages from comp.unix.shell group

http://groups.google.com/group/comp.unix.shell/feed/atom_v1_0_msgs.xml?num=50

and then pick up a feedparser program like Universal Feed Parser

There is .update_parsed option in feedparser, you could use that to check the msg within particular date range

>>> e.updated_parsed              # parses all date formats
(2005, 11, 9, 11, 56, 34, 2, 313, 0)

回复收藏 0 原文

仙女 2024-08-27 15:11:21

正如 Randal 提到的，这违反了 Google 的服务条款——但是，作为假设或在没有这些限制的其他网站上使用，您可以很容易地使用 urllib 和 BeautifulSoup。使用 urllib 打开页面，然后使用 BeautifulSoup 抓取所有线程主题（如果您想爬得更深，还可以使用链接）。然后，您可以通过编程方式找到下一页结果的链接，然后创建另一个 urllib 来转到第 2 页 - 然后重复该过程。

此时您应该拥有所有原始数据，然后只需操作数据并实现搜索功能即可。