元素组的 CSS 选择器?

发布于 2024-11-14 09:03:30 字数 690 浏览 5 评论 0原文

我正在尝试使用以下结构抓取 HTML 网站:

<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>

我需要获取两个 a[name] 锚元素之间的所有 p、h3 和 ul 标签。

现在我成功地获取了第一个 p:

a[name='how'] + div + p

但我不确定如何获取两者之间的所有元素。

这是在接受所有有效 CSS 选择器的 ScrAPI ruby​​ 抓取库 中使用的。

I'm trying to scrape an HTML site with this structure:

<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>

I need to grab all of the p, h3 and ul tags between the two a[name] anchor elements.

Right now I successfully grabbed the first p:

a[name='how'] + div + p

but I'm not sure how to grab all of the elements between the two.

This is being used within ScrAPI ruby scraping library that accepts all valid CSS selectors.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

不必在意 2024-11-21 09:03:30

我不相信这可以在单个 CSS 选择器中完成,但希望被证明是错误的。

然而,它可以在单个 XPath 表达式中完成:

//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]

因此,如果可以选择替代抓取库,例如 Mechanize(它使用 Nokogiri,一个 XPath 兼容的 HTML 解析器),那么可以使用上面的 XPath 来完成。

编辑:为了完整起见,这里有一个功能齐全的脚本,它使用 Nokogiri HTML 解析器演示 xpath。

require 'rubygems'
require 'nokogiri'

html =<<ENDOFHTML
<html>
<body>
    <a name="how"></a>
    <div class="ignore"></div>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <h3>...</h3>
    <p>...</p>
    <ul>...</ul>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <a name="other-uses"></a>
</body>
</html>
ENDOFHTML

doc = Nokogiri::HTML.parse(html)

puts doc.xpath('//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]')

结果:

<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>

I don't believe this can be done in a single CSS selector, but would love to be proven wrong.

It can be done in a single XPath expression, however:

//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]

so if an alternate scraping library is an option, such as Mechanize (which uses Nokogiri, an XPath-compliant HTML parser), then it can be done using the XPath above.

EDIT: for completeness, here's a fully functioning script that demonstrates the xpath using the Nokogiri HTML parser.

require 'rubygems'
require 'nokogiri'

html =<<ENDOFHTML
<html>
<body>
    <a name="how"></a>
    <div class="ignore"></div>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <h3>...</h3>
    <p>...</p>
    <ul>...</ul>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <a name="other-uses"></a>
</body>
</html>
ENDOFHTML

doc = Nokogiri::HTML.parse(html)

puts doc.xpath('//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]')

Result:

<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文