元素组的 CSS 选择器?
我正在尝试使用以下结构抓取 HTML 网站:
<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>
我需要获取两个 a[name] 锚元素之间的所有 p、h3 和 ul 标签。
现在我成功地获取了第一个 p:
a[name='how'] + div + p
但我不确定如何获取两者之间的所有元素。
这是在接受所有有效 CSS 选择器的 ScrAPI ruby 抓取库 中使用的。
I'm trying to scrape an HTML site with this structure:
<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>
I need to grab all of the p, h3 and ul tags between the two a[name] anchor elements.
Right now I successfully grabbed the first p:
a[name='how'] + div + p
but I'm not sure how to grab all of the elements between the two.
This is being used within ScrAPI ruby scraping library that accepts all valid CSS selectors.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我不相信这可以在单个 CSS 选择器中完成,但希望被证明是错误的。
然而,它可以在单个 XPath 表达式中完成:
因此,如果可以选择替代抓取库,例如 Mechanize(它使用 Nokogiri,一个 XPath 兼容的 HTML 解析器),那么可以使用上面的 XPath 来完成。
编辑:为了完整起见,这里有一个功能齐全的脚本,它使用 Nokogiri HTML 解析器演示 xpath。
结果:
I don't believe this can be done in a single CSS selector, but would love to be proven wrong.
It can be done in a single XPath expression, however:
so if an alternate scraping library is an option, such as Mechanize (which uses Nokogiri, an XPath-compliant HTML parser), then it can be done using the XPath above.
EDIT: for completeness, here's a fully functioning script that demonstrates the xpath using the Nokogiri HTML parser.
Result: