我想使用 GAE 抓取网站并将结果发布到 Google 实体中

发布于 2024-08-24 22:15:16 字数 811 浏览 10 评论 0原文

我想抓取此网址： https://www.xstreetsl .com/modules.php?searchSubmitImage_x=0&searchSubmitImage_y=0&SearchLocale=0&name=Marketplace&SearchKeyword=business&searchSubmitImage.x=0&searchSubmitImage.y=0&SearchLocale=0&SearchPriceMin=&SearchPriceMax=& ;SearchRatingMin=&SearchRatingMax=&sort=&dir=asc

进入每个链接并提取各种信息，例如权限、prims 等，然后将结果发布到 google 应用引擎上的实体中。

我想知道最好的方法是什么？

克里斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

孤云独去闲 2024-08-31 22:15:16

为了使用纯 Python 库规范化 HTML，我在 html5lib 方面获得了比 BeautifulSoup 更好的体验。

然而，您只想提取简单的结构化信息，这实际上并不需要规范化 HTML。我在 Google App Engine 上有一些抓取应用程序，它们使用我自己的 xpath 库适用于原始 HTML。
或者您可以使用正则表达式来完成一次性工作。

回复收藏 0 原文

他不在意 2024-08-31 22:15:16

您可以在 Python 中使用几个不错的屏幕抓取库。

也许最简单的高级抓取工具是 scrapy。它依赖 Twisted 来实现主引擎，但提供了一个非常易于使用的界面来实现自定义抓取代码。

否则，您可以考虑使用 BeautifulSoup 或 Mechanize 提供“机械”浏览器实现。

BeautifulSoup 和 Mechanize 都应该在 App Engine 上开箱即用 - 它提供了一个围绕 httplib 和 urllib 的包装器，使用 urlfetch 作为后端。只有 scrapy 会出现问题，因为它使用了twisted。 [感谢尼克·约翰逊的更新]。

回复收藏 0 原文

~没有更多了~

关于作者

抽个烟儿

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

我想使用 GAE 抓取网站并将结果发布到 Google 实体中

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

我想使用 GAE 抓取网站并将结果发布到 Google 实体中

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。