YQL-CDATA]]>使用YQL选择数据时出错
尝试使用 YQL 从 Totalfilm.com 抓取数据,但出现一个奇怪的错误:
“字符序列“]]>”不得出现在内容中,除非用于标记 CDATA 部分的结尾。”
select * from html where url="www.totalfilm.com"
Trying to scrape data from totalfilm.com using YQL but I'm getting a strange error:
"The character sequence "]]>" must not appear in content unless used to mark the end of a CDATA section."
select * from html where url="www.totalfilm.com"
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
正如所评论的,可能需要进行一些捏造才能使损坏的 XHTML 按您希望的方式工作。
这是一个快速、非常粗略的开放数据表,其中删除了任何
和
]]>
来自 (X)HTML 页面(以及 整理它),在应用可选的 XPath 表达式(如在普通html
表中)之前获取所需的数据。您可以像这样使用它:
As commented, some fudging may need to occur to get the broken XHTML working as you would like.
Here is a quick, very crude open data table for you which strips any
<![CDATA[
and]]>
from an (X)HTML page (and also Tidys it), before applying an optional XPath expression, as in the normalhtml
table, to get at the data you need.You can use it like: