当前位置：文江博客话题详情

Web screen-scraping

想要抓取一个网站

发布于 2024-08-03 20:25:52 字数 70 浏览 10 评论 0原文

我正在寻找像 yelp.com 这样的网站，以获取他们在那里拥有的所有酒吧的列表。有没有任何工具或脚本可以帮助我做到这一点。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

终难遇 2024-08-10 20:25:52

从 Python 角度来看

，HTTPLib2 自动执行页面下载。
Beautiful Soup 用于解析 HTML 源代码以获取您想要的信息。

阅读同情屏幕抓取简介很好的教程，可以让您开始使用这两种工具。

回复收藏 0 原文

只为一人 2024-08-10 20:25:52

如果您了解 Python，我觉得 pyQuery 模块很方便。与 jQuery 一样，它允许您使用增强的 CSS 选择器来选择 DOM 对象，我发现它比使用解析器容易得多。

回复收藏 0 原文

农村范ル 2024-08-10 20:25:52

我使用 screen-scraper 在超级页面和 citySearch 上完成了类似的工作。您可以从那里将结果写入 CSV、数据库或其他文件。

回复收藏 0 原文

十雾 2024-08-10 20:25:52

HTTrack - 它的跨平台，多年来一直使用它

回复收藏 0 原文

笑，眼淚并存 2024-08-10 20:25:52

我在互联网时代写了一个爬虫程序来从一些电子商务网站获取信息。我使用 Perl，每个站点都有两层代码。 “发现”层将解析并查找项目列表，“处理”层将读取产品页面和单独的数据字段并将它们输入数据库。

从您想做的事情来看，我认为推出自己的解决方案可能是最好的方法，因为它并不复杂。使用 Perl 或具有良好字符串处理和正则表达式支持的类似解释语言。

分离页面非常容易。忘记解析树（我采用了这种方式并放弃了它），手动识别与您想要的每条信息接壤的模板文本块并将其放在正则表达式上以提取数据要容易得多且直接。

把它们放在一个列表上，散列，无论什么，然后用它做你想做的事。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

爱人如己

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

云雾

文章 0 评论 0

倒带

文章 0 评论 0

浮世清欢

文章 0 评论 0

撩起发的微风

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文