当前位置：文江博客话题详情

我应该使用 Yahoo-Pipes 来抓取 div 的内容吗？

发布于 2024-07-25 22:44:12 字数 753 浏览 15 评论 0原文

给定：

网址 - http://www.contoso.com/search.php? q={param} 返回：
-html-
--正文-
{...}
---div id='foo'-
----div id='第1页'/-
----div id='第2页'/-
----div id='page3'/-
----div id='第N页'/-
---/div-
{...}
--/body-
-/html-

需要：

div id='foo' 的innerHtml 必须由客户端获取（即Javascript）。
- 它将被分成离散的项目（即 div id='page1' 到 div id='pageN'）。
API 限制会阻止服务器端代码预取数据，因此解析和操作的负担必须放在客户端上。

问题：

Yahoo-Pipes 能否帮助格式化数据以便于使用？
- 缺少 DOM 解析器让我犹豫不决。
是否有任何现有管道可以作为示例？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

灯下孤影 2024-08-01 22:44:12

您可以使用 YQL 模块，它允许您获取任意 URL，然后使用 XPath 解析它们。 YQL 查询示例：

select * from html where url="http://finance.yahoo.com/q?s=yhoo" and
  xpath='//div[@id="yfi_headlines"]/div[2]/ul/li/a'

You can use the YQL module, which allows you to fetch arbitrary URLs and then parse them with XPath. A sample YQL query:

select * from html where url="http://finance.yahoo.com/q?s=yhoo" and
  xpath='//div[@id="yfi_headlines"]/div[2]/ul/li/a'

回复收藏 0 原文

甜味超标? 2024-08-01 22:44:12

是的，用 Y 就可以实现！管道。您只需要“操作符部分”中的两个模块：

第一个“子元素”即可仅获取内容。

然后只需使用“Regex”模块提取 div 内容并通过 JSON 从您的站点获取它：

搜索：

^.*?

(.*?)

;.*?$

替换：

回复收藏 0 原文

~没有更多了~

关于作者

如果没有你

暂无简介

文章

28 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

我应该使用 Yahoo-Pipes 来抓取 div 的内容吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞