清理 URL 中的字符串(例如 SO 上的问题名称)的最佳方法是什么?

发布于 2024-07-13 17:00:26 字数 888 浏览 6 评论 0原文

我正在寻找创建一个 URL 字符串,就像 SO 用于问题链接的 URL 字符串一样。 我不考虑重写 url (mod_rewrite)。 我正在考虑在页面上生成链接。

示例:问题名称是:

Is it better to use ob_get_contents() or $text .= ‘test’;

URL 最终是:

http://stackoverflow.com/questions/292068/is-it-better-to-use-obgetcontents-or-text-test

我感兴趣的部分是:

is-it-better-to-use-obgetcontents-or-text-test

所以基本上我希望清除所有非字母数字的内容,同时仍然保持 URL 可读。 我创建了以下内容,但我不确定这是否是最好的方法或者是否涵盖了所有可能性:

$str = urlencode(
    strtolower(
    str_replace('--', '-', 
    preg_replace(array('/[^a-z0-9 ]/i', '/[^a-z0-9]/i'), array('', '-'), 
    trim($urlPart)))));

所以基本上:

  1. 修剪
  2. 替换任何非字母数字加空格,
  3. 然后将所有非字母数字替换为破折号
  4. 替换 - 与-.
  5. strtolower()
  6. urlencode()——可能不需要,但只是为了更好的衡量。

I'm looking to create a URL string like the one SO uses for the links to the questions. I am not looking at rewriting the url (mod_rewrite). I am looking at generating the link on the page.

Example: The question name is:

Is it better to use ob_get_contents() or $text .= ‘test’;

The URL ends up being:

http://stackoverflow.com/questions/292068/is-it-better-to-use-obgetcontents-or-text-test

The part I'm interested in is:

is-it-better-to-use-obgetcontents-or-text-test

So basically I'm looking to clean out anything that is not alphanumeric while still keeping the URL readable. I have the following created, but I'm not sure if it's the best way or if it covers all the possibilities:

$str = urlencode(
    strtolower(
    str_replace('--', '-', 
    preg_replace(array('/[^a-z0-9 ]/i', '/[^a-z0-9]/i'), array('', '-'), 
    trim($urlPart)))));

So basically:

  1. trim
  2. replace any non alphanumeric plus the space with nothing
  3. then replace everything not alphanumeric with a dash
  4. replace -- with -.
  5. strtolower()
  6. urlencode() -- probably not needed, but just for good measure.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

清风挽心 2024-07-20 17:00:26

正如您已经指出的,在这种情况下不需要 urlencode(),也不需要 trim()。 如果我理解正确的话,第 4 步是避免连续出现多个破折号,但不会阻止超过两个破折号。 另一方面,连接两个单词的破折号(例如“大规模”)将被您的解决方案删除,而它们似乎保留在 SO 上。

我不确定这确实是最好的方法,但这是我的建议:

$str = strtolower( 
  preg_replace( array('/[^a-z0-9\- ]/i', '/[ \-]+/'), array('', '-'), 
  $urlPart ) );

所以:

  1. 删除任何既不是空格、破折号也不是字母数字的字符,
  2. 替换任何连续数量的空格或破折号用一个破折号
  3. strtolower()

As you pointed out already, urlencode() is not needed in this case and neither is trim(). If I understand correctly, step 4 is to avoid multiple dashes in a row, but it will not prevent more than two dashes. On the other hand, dashes connecting two words (like in "large-scale") will be removed by your solution while they seem to be preserved on SO.

I'm not sure that this is really the best way to do it, but here's my suggestion:

$str = strtolower( 
  preg_replace( array('/[^a-z0-9\- ]/i', '/[ \-]+/'), array('', '-'), 
  $urlPart ) );

So:

  1. remove any character that is neither space, dash, nor alphanumeric
  2. replace any consecutive number of spaces or dashes with a single dash
  3. strtolower()
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文