当前位置：文江博客话题详情

URL 可以包含分号并且仍然有效吗？

发布于 2024-07-29 04:47:41 字数 429 浏览 5 评论 0 原文

我正在使用正则表达式将纯文本 URL 转换为可点击的链接。

@(https?://([-\w\.]+)+(:\d+)?(/([\w/_\.-]*(\?\S+)?)?) ?)@

然而，有时在文本正文中，URL 会每行枚举一个，并在末尾加一个分号。真实的URL不包含任何“;”。

http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=275;
http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=123;
http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=124

URL 中是否允许使用分号 (;) 或者分号是否可以被视为 URL 结尾的标记？这如何适合我的正则表达式？

原文

I am using a regular expression to convert plain text URL to clickable links.

@(https?://([-\w\.]+)+(:\d+)?(/([\w/_\.-]*(\?\S+)?)?)?)@

However, sometimes in the body of the text, URL are enumerated one per line with a semi-colon at the end. The real URL does not contain any ";".

http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=275;
http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=123;
http://www.aaa.org/pressdetail.asp?PRESS_REL_ID=124

Is it permitted to have a semicolon (;) in a URL or can the semicolon be considered a marker of the end of an URL? How would that fit in my regular expression?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

红玫瑰 2024-08-05 04:47:41

分号是保留的并且只能用于其特殊目的（这取决于方案）。

第 2.2 节：

许多 URL 方案保留了某些
具有特殊含义的字符：
他们的出现在
URL 的特定于方案的部分有一个
指定语义。如果角色
对应一个八位位组是
在方案中保留，八位字节必须
被编码。字符“;”，
“/”、“?”、“:”、“@”、“=< /code>”和“&”是可能是的字符为特殊含义而保留方案。不能有其他字符在方案内保留。

回复收藏 0 原文

鲜血染红嫁衣 2024-08-05 04:47:41

W3C 鼓励 CGI 程序接受; 以及查询字符串中的&（即对待?name=fred&） Age=50 和 ?name=fred;age=50 的方式相同）。

这应该是因为 & 必须在 HTML 中编码为 &，而 ; 则不然。

回复收藏 0 原文

长伴 2024-08-05 04:47:41

分号是合法的URI字符；它属于子分隔符类别： http://www.ietf.org/rfc/rfc3986 .txt

但是，规范指出分号对于特定 URI 是否合法取决于该 URI 的方案或生产者。因此，如果使用这些链接的网站不允许使用分号，那么它们对于该特定情况无效。

回复收藏 0 原文

许一世地老天荒 2024-08-05 04:47:41

从技术上讲，分号是 URL 字符串中的合法子分隔符；上面引用了大量的源材料，包括 http://www.ietf.org/rfc/rfc3986.txt 。

有些人确实将其用于合法目的，尽管它的使用可能是特定于站点的（即仅用于该站点），因为它的使用必须由使用它的站点定义。

然而，在现实世界中，URL 中分号的主要用途是将病毒或网络钓鱼 URL 隐藏在合法 URL 后面。

例如，向某人发送包含以下链接的电子邮件：

http://www.yahoo.com/junk/nonsense;0200.0xfe.0x37.0xbf/malicious_file/

将导致 Yahoo! 链接（www.yahoo.com/junk/nonsense）被忽略，因为即使它是合法的（即，正确形成的），也不存在这样的页面。但第二个链接 (0200.0xfe.0x37.0xbf/malicious_file/) 可能存在*，并且用户将被定向到恶意文件页面；随后，公司 IT 经理将收到一份报告，而员工可能会收到一份解雇通知书。

在所有反对者都激动起来之前，这正是新的 Facebook 网络钓鱼问题的运作方式。像往常一样，为了保护有罪者，这些人的名字都被更改了。

*据我所知，实际上不存在这样的页面。显示的链接仅用于本次讨论。

回复收藏 0 原文

琉璃繁缕 2024-08-05 04:47:41

是的，分号在 URL 中有效。但是，如果您从相对非结构化的散文中提取它们，则可以安全地假设 URL 末尾的分号表示句子标点符号。这同样适用于其他句子标点字符，如句号、问号、引号等。

如果您只对具有显式 http[s] 协议的 URL 感兴趣，并且您的正则表达式风格支持lookbehinds ，这个正则表达式应该足够了：

https?://[\w!#$%&'()*+,./:;=?@\[\]-]+(?

在协议之后，它只是匹配 URL 中可能有效的一个或多个字符，根本不用担心结构。但随后它会退回尽可能多的位置根据需要，直到最后一个字符不是句子标点符号。

回复收藏 0 原文

倦话 2024-08-05 04:47:41

http://www.ietf.org/rfc/rfc3986.txt 涵盖 URL 以及内容字符可能以未编码的形式出现。鉴于包含分号的 URL 在浏览器中可以正常工作，您的代码应该支持它们。

回复收藏 0 原文

清风无影 2024-08-05 04:47:41

引用 RFC 对于回答这个问题并没有多大帮助，因为您会遇到带有分号（以及与此相关的逗号）的 URL。我们有一个不处理分号和逗号的正则表达式，NutshellMail 的一些用户抱怨说，因为包含它们的 URL 实际上存在于野外。尝试在 Facebook 或 Twitter 中构建一个包含“;”的虚拟 URL 或“,”，您将看到这两个服务正确编码了完整的 URL。

我用以下模式替换了我们正在使用的正则表达式（并测试了它的工作原理）：

 string regex = @"((www\.|(http|https|ftp|news|file)+\:\/\/)[_.a-zA-Z0-9-]+\.[a-zA-Z0-9\/_:@=.+?,##%&~_-]*[^.|\'|\# |!|\(|?|,| |>|<|;|\)])";

此正则表达式来自 http://rickyrosario.com/blog/converting-a-url-into-a-link-in-csharp-using-regular-expressions /（稍作修改）

Quoting RFCs is not all that helpful in answering this question, because you will encounter URLs with semicolons (and commas for that matter). We had a Regex that did not handle semicolons and commas, and some of our users at NutshellMail complained because URLs containing them do in fact exist in the wild. Try building a dummy URL in Facebook or Twitter that contains a ';' or ',' and you will see that those two services encode the full URL properly.

I replaced the Regex we were using with the following pattern (and have tested that it works):

 string regex = @"((www\.|(http|https|ftp|news|file)+\:\/\/)[_.a-zA-Z0-9-]+\.[a-zA-Z0-9\/_:@=.+?,##%&~_-]*[^.|\'|\# |!|\(|?|,| |>|<|;|\)])";

This Regex came from http://rickyrosario.com/blog/converting-a-url-into-a-link-in-csharp-using-regular-expressions/ (with a slight modification)

回复收藏 0 原文

~没有更多了~

关于作者

ゝ偶尔ゞ

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

URL 可以包含分号并且仍然有效吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

爱人如己

萧瑟寒风

云雾

倒带

浮世清欢

撩起发的微风

友情链接

URL 可以包含分号并且仍然有效吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

爱人如己

萧瑟寒风

云雾

倒带

浮世清欢

撩起发的微风

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。