使用 YQL 提取 HTML 内容?
假设我想从带有以下标记的网页中提取数据:
<table>
<tr>
<td><a href="Link 1">Column 1 Text</a></td>
<td>Column 2 Text</td>
<td>Column 3 Text</td>
</tr>
<tr>
<td><a href="Link 2">Column 1 Text</a></td>
<td>Column 2 Text</td>
<td>Column 3 Text</td>
</tr>
...
</table>
为 JSON 格式:
[
{
link: 'Link 1',
text: 'Column 1 Text',
data: 'Column 3 Text'
},
{
link: 'Link 2',
text: 'Column 1 Text',
data: 'Column 3 Text'
}
]
我们可以使用 YQL 来实现吗?如果是,请给我一个示例查询。
任何帮助将不胜感激!
Let say I want to extract data from a web page with the following markup:
<table>
<tr>
<td><a href="Link 1">Column 1 Text</a></td>
<td>Column 2 Text</td>
<td>Column 3 Text</td>
</tr>
<tr>
<td><a href="Link 2">Column 1 Text</a></td>
<td>Column 2 Text</td>
<td>Column 3 Text</td>
</tr>
...
</table>
to JSON format :
[
{
link: 'Link 1',
text: 'Column 1 Text',
data: 'Column 3 Text'
},
{
link: 'Link 2',
text: 'Column 1 Text',
data: 'Column 3 Text'
}
]
Can we make it with YQL? If yes then please give me an example query.
Any helps would be appreciated!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这是一个很好的起点,它使用 HTML 表以及一些 XPath 查询(请参阅 使用 XPath 提取 HTML 内容 了解有关此技术的更多详细信息):
select * from html where url="http://cantoni.org/test/table.html" and xpath='//table/tr'
其中生成如下 JSON 结果:
Here's a query that's a good starting point, using the HTML table along with some XPath query (see Extracting HTML Content With XPath for more details on this technique):
select * from html where url="http://cantoni.org/test/table.html" and xpath='//table/tr'
Which produces JSON results like this: