元素组的 CSS 选择器？

发布于 2024-11-14 09:03:30 字数 690 浏览 5 评论 0原文

我正在尝试使用以下结构抓取 HTML 网站：

<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>

我需要获取两个 a[name] 锚元素之间的所有 p、h3 和 ul 标签。

现在我成功地获取了第一个 p:

a[name='how'] + div + p

但我不确定如何获取两者之间的所有元素。

这是在接受所有有效 CSS 选择器的 ScrAPI ruby 抓取库中使用的。

原文

I'm trying to scrape an HTML site with this structure:

<a name="how"></a>
<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>
<a name="other-uses"></a>

I need to grab all of the p, h3 and ul tags between the two a[name] anchor elements.

Right now I successfully grabbed the first p:

a[name='how'] + div + p

but I'm not sure how to grab all of the elements between the two.

This is being used within ScrAPI ruby scraping library that accepts all valid CSS selectors.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不必在意 2024-11-21 09:03:30

我不相信这可以在单个 CSS 选择器中完成，但希望被证明是错误的。

然而，它可以在单个 XPath 表达式中完成：

//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]

因此，如果可以选择替代抓取库，例如 Mechanize（它使用 Nokogiri，一个 XPath 兼容的 HTML 解析器），那么可以使用上面的 XPath 来完成。

编辑：为了完整起见，这里有一个功能齐全的脚本，它使用 Nokogiri HTML 解析器演示 xpath。

require 'rubygems'
require 'nokogiri'

html =<<ENDOFHTML
<html>
<body>
    <a name="how"></a>
    <div class="ignore"></div>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <h3>...</h3>
    <p>...</p>
    <ul>...</ul>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <a name="other-uses"></a>
</body>
</html>
ENDOFHTML

doc = Nokogiri::HTML.parse(html)

puts doc.xpath('//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]')

结果：

<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>

I don't believe this can be done in a single CSS selector, but would love to be proven wrong.

It can be done in a single XPath expression, however:

//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]

so if an alternate scraping library is an option, such as Mechanize (which uses Nokogiri, an XPath-compliant HTML parser), then it can be done using the XPath above.

EDIT: for completeness, here's a fully functioning script that demonstrates the xpath using the Nokogiri HTML parser.

require 'rubygems'
require 'nokogiri'

html =<<ENDOFHTML
<html>
<body>
    <a name="how"></a>
    <div class="ignore"></div>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <h3>...</h3>
    <p>...</p>
    <ul>...</ul>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <p>...</p>
    <a name="other-uses"></a>
</body>
</html>
ENDOFHTML

doc = Nokogiri::HTML.parse(html)

puts doc.xpath('//*[preceding-sibling::a/@name="how" and following-sibling::a/@name="other-uses"]')

Result:

<div class="ignore"></div>
<p>...</p>
<p>...</p>
<p>...</p>
<h3>...</h3>
<p>...</p>
<ul>...</ul>
<p>...</p>
<p>...</p>
<p>...</p>
<p>...</p>

回复收藏 0 原文

~没有更多了~

关于作者

软的没边

暂无简介

0 文章

0 评论

24 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

元素组的 CSS 选择器？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

元素组的 CSS 选择器？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。