当前位置：文江博客话题详情

使用 Python 正则表达式的用户输入安全吗？

发布于 2024-08-16 08:02:18 字数 1432 浏览 5 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

娇纵 2024-08-23 08:02:18

我开发了一个程序，允许用户输入自己的正则表达式，你是对的 - 他们可以（并且确实）输入可能需要很长时间才能完成的正则表达式 - 有时比宇宙的生命周期还要长。更糟糕的是，在处理正则表达式时，Python 持有 GIL，因此它不仅会挂起运行正则表达式的线程，还会挂起整个程序。

限制正则表达式的长度是行不通的，因为问题是回溯。例如，在长度为 N 且不包含“x”的字符串上匹配正则表达式 r"(\S+)+x" 将回溯 2**N 次。在我的系统上，这大约需要一秒钟来匹配 "a"*21，并且每增加一个字符，时间就会加倍，因此 100 个字符的字符串将需要大约 19167393131891000 年才能完成（这是估计值），我没有计时）。

有关更多信息，请阅读 O'Reilly 的书“掌握正则表达式”——其中有几个关于性能的章节。

编辑
为了解决这个问题，我们编写了一个正则表达式分析函数，试图捕获并拒绝一些更明显的退化情况，但不可能获得所有这些情况。

我们研究的另一件事是修补 re 模块，以便在回溯次数过多时引发异常。这是可能的，但需要更改 Python C 源代码并重新编译，因此不可移植。我们还提交了一个补丁，以在与 python 字符串匹配时释放 GIL，但我认为它没有被核心接受（python 仅保存 GIL，因为正则表达式可以针对可变缓冲区运行）。

回复收藏 0 原文

緦唸λ蓇 2024-08-23 08:02:18

对于临时用户来说，为他们提供子集语言要简单得多。例如，shell 的通配规则位于 fnmatch 中。 SQL LIKE 条件规则是另一个示例。

将用户的语言翻译成正确的正则表达式以便在运行时执行。

回复收藏 0 原文

°如果伤别离去 2024-08-23 08:02:18

编译正则表达式应该相当安全。虽然它编译成的内容并不是严格意义上的 NFA（反向引用意味着它不太干净），但它仍然应该很容易编译成。

至于性能特征，这完全是另一个问题。由于回溯，即使很小的正则表达式也可能具有指数时间特征。最好定义功能的某个子集，并且仅支持您自己翻译的非常有限的表达式。

如果您确实想支持通用正则表达式，您要么必须信任您的用户（有时是一个选项），要么限制使用的空间和时间量。我相信所使用的空间仅由正则表达式的长度决定。

编辑：正如戴夫所指出的，显然全局解释器锁是在正则表达式匹配期间保持的，这将使设置超时变得更加困难。如果是这种情况，设置超时的唯一选择是在单独的进程中运行匹配。虽然不完全理想，但它是可行的。我完全忘记了 multiprocessing。感兴趣的地方是关于共享的本节对象。如果您确实需要硬性约束，那么可以采用单独的流程。

回复收藏 0 原文

一人独醉 2024-08-23 08:02:18

除非您需要重用许多不同的正则表达式，否则没有必要使用compile()。该模块已经缓存了最后的表达式。

如果允许用户输入任何正则表达式，第 2 点（执行时）可能会非常困难。您可以使用很少的字符创建一个复杂的正则表达式，例如著名的 (x+x+)+y 。我认为这是一个尚未得到普遍解决的问题。
解决方法可以是启动不同的线程并监视它，如果超过允许的时间，则终止该线程并返回错误。

回复收藏 0 原文

鹿港小镇 2024-08-23 08:02:18

我真的不认为仅仅通过将代码传递到 re.compile 中就可以执行代码。据我理解， re.compile （或任何语言的任何正则表达式系统）将正则表达式字符串转换为有限自动机（DFA 或 NFA），尽管有一个不祥的名字“编译”，但它与任何代码的执行无关。

回复收藏 0 原文

肩上的翅膀 2024-08-23 08:02:18

从技术上讲，您不需要使用 re.compile() 对字符串执行正则表达式操作。事实上，如果您只执行一次操作，则编译方法通常会更慢，因为存在与初始编译相关的开销。

如果您担心“编译”这个词，那么就避免使用它，只需将原始表达式传递给 match、search 等。您最终可能会提高性能无论如何，你的代码稍微有点。

回复收藏 0 原文

~没有更多了~

关于作者

彡翼

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

使用 Python 正则表达式的用户输入安全吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

使用 Python 正则表达式的用户输入安全吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。