用于排除 URL 的正则表达式

发布于 2024-12-11 21:21:04 字数 485 浏览 0 评论 0原文

我与一家电子邮件公司合作，该公司有一个功能，他们可以抓取您的网站以提供自定义内容。我能够让蜘蛛根据我提供的正则表达式模式忽略 url。

对于该系统，模式以“/”开始和结束。

我想做的是忽略 http://www.website.com/2011/10 但允许 http://www.website.com/2011/10/title-of-page.html

我本以为下面的模式会起作用，因为它没有尾部斜杠，但没有运气。

有什么想法吗？

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/

原文

I working with an email company that has a feature where they spider your site in order to provide custom content. I have the ability to have the spider ignore urls based on the regex patterns I provide.

For this system a pattern starts and ends with a "/".

What I'm trying to do is ignore http://www.website.com/2011/10 BUT allow http://www.website.com/2011/10/title-of-page.html

I would have thought the pattern below would work since it does not have a trailing slash but no luck.

Any ideas?

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

能怎样 2024-12-18 21:21:04

您的正则表达式匹配 URL 的部分，因此您需要告诉它不要在其后添加斜杠：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/

如果您还想避免其他部分匹配，例如 http://www .website.com/2011/100，那么额外的单词边界可能帮助：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/

Your regex matches a part of the URL, so you need to tell it not to allow a slash to follow it:

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/

If you want to also avoid other partial matches like in http://www.website.com/2011/100, then an additional word boundary might help:

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/

回复收藏 0 原文

却一份温柔 2024-12-18 21:21:04

这取决于正则表达式引擎，但您可能可以使用 $（如果 URL 预先标记化）或空格和分隔符的匹配

回复收藏 0 原文

~没有更多了~

关于作者

红ご颜醉

暂无简介

0 文章

0 评论

25 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

用于排除 URL 的正则表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

用于排除 URL 的正则表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。