爬行互联网

发布于 2024-07-16 11:08:07 字数 284 浏览 11 评论 0 原文

我想抓取特定的东西。特别是正在发生的活动，如音乐会、电影、艺术画廊开幕式等，任何人们可能花时间去的事情。

如何实现爬虫？

我听说过 Grub (grub.org -> Wikia) 和 Heritix (http://crawler.archive.org/< /a>）

还有其他的吗？

大家都有什么意见呢？

-杰森

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

最单纯的乌龟 2024-07-23 11:08:07

该主题的优秀介绍性文本是信息检索简介（全文可在线获取）。它有一章关于网络爬行，但也许更重要的是，它为您要对爬网文档执行的操作提供基础。

_{（来源：stanford.edu）}

回复收藏 0 原文

挖个坑埋了你 2024-07-23 11:08:07

我可以推荐一本关于这个主题的好书，名为网络机器人、蜘蛛和屏幕抓取工具：指南使用 PHP/CURL 开发 Internet 代理。

回复收藏 0 原文

望她远 2024-07-23 11:08:07

无论您做什么，请成为一个好公民并遵守 robots.txt 文件。您可能需要查看维基百科页面上关于聚焦爬虫的参考资料。刚刚意识到我认识主题网络爬虫：评估自适应算法的作者之一。小世界。

回复收藏 0 原文

无声静候 2024-07-23 11:08:07

查看 Scrapy。它是一个用 Python 编写的开源网络爬行框架（我听说它与 Django 类似，只是它不是提供页面而是下载页面）。它易于扩展、分布式/并行，并且看起来非常有前途。

我会使用 Scrapy，因为这样我就可以把自己的优势集中在一些更琐碎的事情上，比如如何从抓取的内容中提取正确的数据等并将其插入数据库。

回复收藏 0 原文

你是年少的欢喜 2024-07-23 11:08:07

我认为网络爬虫部分将是任务中最简单的部分。困难的部分是决定要访问哪些站点以及如何发现您想要访问的站点上的活动。也许您想了解如何使用 Google 或 Yahoo API 获取您想要的数据。他们已经完成了在互联网上抓取大量页面的工作——无论如何，在我看来，你可以专注于筛选数据以获得你正在寻找的事件的更困难的问题。

回复收藏 0 原文

执手闯天涯 2024-07-23 11:08:07

实际上编写一个规模化的爬虫是一项相当具有挑战性的任务。我在工作中实现了一个并维护了相当长一段时间。有很多问题你不知道存在，直到你写了一个问题并解决了这些问题。专门处理 CDN 和网站的友好爬行。自适应算法非常重要，否则您将绊倒 DOS 过滤器。事实上，如果你的爬行足够大，你无论如何都会在不知情的情况下发生。

需要考虑的事情：