当 XPath 相同时提取数据

发布于 2024-11-17 21:41:52 字数 464 浏览 2 评论 0原文

我是 jython 和 scrapy 的新手，但它们的功能给我留下了深刻的印象。我的问题是，当 XPath 相同时提取数据的最佳方法是什么？

例如：

<tr>
  <td>
    <a href="/user/Bob">Bob Job</a>
  </td>
  <td>hi</td>
  <td>280.0</td>
</tr>

我需要从所有 3 个 td 字段中抓取信息。我使用 firebug 提取 XPath，它将我的 XPath 显示为

/html/body/table[2]/tbody/tr/td[2]/div/table/tbody/tr[2]/td[3]

最好的是什么当 XPath 相同时提取数据的方法？我可能只需要 td[1] 和 td[3] 的数据。

原文

I am new to jython and scrapy, but I am impressed by the capabilities that is has. My question is, what is the best way to extract data when the XPaths are the same?

For example:

<tr>
  <td>
    <a href="/user/Bob">Bob Job</a>
  </td>
  <td>hi</td>
  <td>280.0</td>
</tr>

I need to scrape the information from all 3 td fields. I use firebug to extract the XPath which displays my XPath as

/html/body/table[2]/tbody/tr/td[2]/div/table/tbody/tr[2]/td[3]

what is the best way to extract data when the XPaths are the same? I may only need data from td[1] and td[3].

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

十秒萌定你 2024-11-24 21:41:52

您必须确定一个标准来提取值并将它们放入相应的项目字段中。例如

link     = hxs.select('//td/a/href').extract()[0]
linktext = hxs.select('//td/a/text()').extract()[0]
number   = hxs.select('//td').re('\d+\.\d+')

You will have to identify a criteria to extract the values and put them in respective item fields. e.g.

link     = hxs.select('//td/a/href').extract()[0]
linktext = hxs.select('//td/a/text()').extract()[0]
number   = hxs.select('//td').re('\d+\.\d+')

回复收藏 0 原文

○愚か者の日 2024-11-24 21:41:52

Firebugs 复制 xpath 并不总是最佳的。

抓取表格时，首先找到一种方法来迭代字段，例如 //table[@id='results']/tr，然后再执行另一个查询获取每行所需的 td 字段。 //td 这样更简单。

回复收藏 0 原文

~没有更多了~

关于作者

池木

暂无简介

0 文章

0 评论

24 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

当 XPath 相同时提取数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

当 XPath 相同时提取数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。