提取文本与正则表达式匹配的 URL - 使用 XPath 1.0

发布于 2024-11-16 04:30:48 字数 436 浏览 3 评论 0原文

我想使用 Scrapy 中的 XPath 提取这种类型的 URL（链接文本是具有任意位数的数字，href 是随机文本）。

我可以想到类似的东西

HtmlXPathSelector(response).select('//a[matches(text(),"\d+")]/@href')

，但是似乎不支持 XPath 2.0，并且我无法使用正则表达式。

我可以搜索的最佳单行解决方案来自这个问题： xpath expression for regex-likematching? - 有更好的吗scrapy中的方式来实现这一点？

原文

I would like to extract the URL of this type (link text is a number with any number of digits and href is a random text) using an XPath in Scrapy.

<a href="http://www.example.com/link_to_some_page.html>3</a>
<a href="http://www.example.com/another_link-abcd.html>45</a>

I could think of something like

HtmlXPathSelector(response).select('//a[matches(text(),"\d+")]/@href')

However it appears that XPath 2.0 isn't supported and I can't use regex.

The best single line solution I could search was from this question: xpath expression for regex-like matching? - Is there a better way in scrapy to achieve this?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浮生面具三千个 2024-11-23 04:30:48

.select('//a[. != "" and translate(., "0123456789", "") = ""]/@href')

.select('//a[. != "" and translate(., "0123456789", "") = ""]/@href')

回复收藏 0 原文

~没有更多了~

关于作者

浅语花开

暂无简介

0 文章

0 评论

22 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

提取文本与正则表达式匹配的 URL - 使用 XPath 1.0

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

提取文本与正则表达式匹配的 URL - 使用 XPath 1.0

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。