当前位置：文江博客话题详情

用于爬行和数据挖掘网站的最佳开源库或应用程序

发布于 2024-07-18 07:05:15 字数 91 浏览 12 评论 0原文

我想知道用于爬行和分析网站的最佳开源库是什么。一个例子是爬虫房地产机构，我想从多个网站获取信息并将它们聚合到我自己的网站中。为此，我需要抓取网站并提取房产广告。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

嘿嘿嘿 2024-07-25 07:05:15

我使用优秀的 python 包进行了大量的抓取 urllib2, < a href="http://wwwsearch.sourceforge.net/mechanize/" rel="nofollow noreferrer">mechanize 和 BeautifulSoup.

我还建议查看 lxml 和 Scrapy，尽管我目前不使用它们（仍计划尝试 scrapy）。

Perl 语言还具有强大的抓取功能。

回复收藏 0 原文

小糖芽 2024-07-25 07:05:15

PHP/cURL 是一个非常强大的组合，特别是如果您想直接在网页中使用结果......

回复收藏 0 原文

放低过去 2024-07-25 07:05:15

与莫罗佐夫先生一样，我也进行了大量的搜索工作，主要是工作地点。我从来没有必要求助于机械化，如果这有帮助的话。 Beautifulsoup 与 urllib2 结合起来一直就足够了。

我用过lxml，非常棒。不过，我相信几个月前我尝试使用它时，它可能还无法在 Google 应用程序中使用，如果您需要的话。

我要感谢 Morozov 先生提到 Scrapy。没听说过。

回复收藏 0 原文

我不咬妳我踢妳 2024-07-25 07:05:15

除了 Scrapy 之外，你还应该看看 Parselets

回复收藏 0 原文

~没有更多了~

关于作者

策马西风

暂无简介

文章

696 人气

关注发私信

尘曦

文章 0 评论 0

关注

在梵高的星空下

文章 0 评论 0

关注

善良天后

文章 0 评论 0

关注

韬韬不绝

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

不美如何

文章 0 评论 0

友情链接

文江博客

用于爬行和数据挖掘网站的最佳开源库或应用程序

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

用于爬行和数据挖掘网站的最佳开源库或应用程序

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。