当前位置：文江博客话题详情

抓取 Ajax - 使用 python

发布于 2024-07-30 19:06:48 字数 135 浏览 7 评论 0原文

我正在尝试用 python 废弃 youtube 中的一个页面，其中有很多 ajax

我每次都必须调用 java 脚本来获取信息。但我不太确定该怎么做。我正在使用 urllib2 模块来打开 URL。任何帮助，将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼藏柔 2024-08-06 19:06:49

YouTube（以及 Google 制作的其他所有产品）已经拥有广泛的 API，可让您访问您可能想要的几乎所有数据。

有关详细信息，请参阅 Youtube 数据 API。

我使用 urllib 发出 API 请求，并使用 ElementTree 解析返回的 XML。

回复收藏 0 原文

硬不硬你别怂 2024-08-06 19:06:49

您可以使用 Wireshark 之类的东西嗅探网络流量，然后通过足够强大的抓取框架重放 HTTP 调用处理 AJAX，例如 scraPY。

回复收藏 0 原文

左秋 2024-08-06 19:06:49

主要问题是，您违反了 YouTube 网站的 TOS（服务条款）。如果您坚持不懈，Youtube 工程师和律师将尽其专业的最大努力追踪您，并为您树立榜样。如果你对这个前景感到满意，那么，就你的想法而言——从技术上讲，你最好的选择是 python-spidermonkey 和 selenium。我想将技术提示记录下来，以防将来任何人有像您的问题标题所示的需求，如果您继续这项特定的努力，没有您显然会遇到的法律问题。

回复收藏 0 原文

情深如许 2024-08-06 19:06:49

我的做法如下：在 Firefox 上安装 Firebug，然后在 Firebug 中打开 NET，然后单击 YouTube 上所需的链接。现在看看发生了什么以及请求了哪些页面。找到负责页面 AJAX 部分的那个。现在您可以使用 urllib 或 Mechanize 来获取链接。如果您可以通过这种方式提取相同的内容，那么您就拥有了所需的内容，然后只需解析该内容即可。如果您不能以这种方式提取内容，那么这表明所请求的页面可能正在查看用户登录凭据、会话信息或其他标头字段，例如 HTTP_REFERER ... 等。然后您可能想查看更多内容广泛，如 scrapy ...等。我建议您始终首先遵循简单的路径。祝你好运并快乐“负责任地”抓取！ :)

回复收藏 0 原文