使用 YQL 抓取 HTML

发布于 2024-11-17 20:46:47 字数 296 浏览 4 评论 0原文

我正在尝试使用 YQL 来抓取一些网站。当我在 YQL 控制台中测试各种查询时，我得到一个结果节点。例如，当我运行时：

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

我得到一个空的节点 (固定链接）。提前致谢！

原文

I am trying to use YQL to scrape some websites. When I test various queries in the YQL console I get an results node. So for example when I run:

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

I get an empty <results /> node (permalink).
Thanks in advance!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

失与倦＂ 2024-11-24 20:46:47

http://www.reverbnation.com 可能会阻止来自 Yahoo! 的请求基于某些标准，例如标题。我查看了 reverbnation 的 robots.txt，他们并没有阻止 Yahoo!基于“Yahoo Pipes 2.0”用户代理，所以它一定是别的东西。

要重新创建问题，请对您自己的站点进行 YQL 查询，然后查看完整的访问日志以查看完整的请求和来自 Yahoo! 的所有标头！然后使用 cURL 等工具发出类似的请求。

您还可以尝试在端口上运行 netcat 并使用 http://yoursite.com:PORT 进行查询以查看完整的请求。

关于作者

林空鹿饮溪

暂无简介

文章

27 人气

关注发私信

佚名

文章 0 评论 0

关注

今天

文章 0 评论 0

关注

゛时过境迁

文章 0 评论 0

关注

达拉崩吧

文章 0 评论 0

关注

呆萌少年

文章 0 评论 0

关注

孤者何惧

文章 0 评论 0

友情链接

文江博客

使用 YQL 抓取 HTML

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

使用 YQL 抓取 HTML

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。