在 Ruby 中将正则表达式与非字符串进行匹配而不进行转换

发布于 2024-08-09 02:10:30 字数 670 浏览 2 评论 0原文

如果 Ruby 正则表达式与不是字符串的内容进行匹配，则会在该对象上调用 to_str 方法来获取要匹配的实际字符串。我想避免这种行为；我想将正则表达式与不是字符串的对象进行匹配，但在逻辑上可以将其视为可随机访问的字节序列，并且对它们的所有访问都通过 byte_at() 方法进行中介（本质上与 Java 的 CharSequence.char_at() 方法类似）。

例如，假设我想查找任意正则表达式在任意文件中的字节偏移量；该表达式可能是多行的，因此我不能一次读取一行并在每行中查找匹配项。如果文件很大，我无法将其全部放入内存中，因此我不能将其作为一个大字符串读取。然而，定义一个获取文件第 n 个字节的方法（根据速度需要进行缓冲和缓存）就足够简单了。

最终，我想构建一个功能齐全的 rope 类，例如Ruby Quiz #137，我希望能够在它们上使用正则表达式而不影响性能将它们转换为字符串的损失。

我不想深入了解 Ruby 正则表达式实现的内部结构，因此任何见解都将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

尬尬 2024-08-16 02:10:30

你不能。 Ruby 1.8.x 不支持这一点，可能是因为它是一种边缘情况；在 1.9 中它甚至没有意义。 Ruby 1.9 不以任何用户可服务的方式将其字符串映射到字节；相反，它使用字符代码点，以便它可以支持它接受的多种编码。 1.9 的新优化正则表达式引擎 Oniguruma 也是围绕相同的编码和代码点概念构建的。字节只是不进入这个级别的图片。

我怀疑您所要求的是过早优化的情况。对于任何合理的 Ruby 对象，实现 to_str 不应该成为一个巨大的性能障碍。如果是，那么 Ruby 可能不适合您，因为它以各种方式将您与原始数据进行抽象和隔离。

您在大型二进制文件中查找字节序列的示例并不是 Ruby 的理想用例 - 您最好使用 grep 或其他一些 Unix 工具。如果您需要 Ruby 程序中的结果，请使用反引号将其作为系统进程运行并处理输出。

回复收藏 0 原文

~没有更多了~