当前位置：文江博客话题详情

从大文本中解析数字，可能不需要正则表达式（性能关键）

发布于 2024-12-03 22:52:20 字数 479 浏览 3 评论 0原文

在你们开始用以下变体回答之前，我对正则表达式非常熟悉： /d+

我想知道是否有正则表达式的替代方法来解析大型文本文件中的数字。

我正在解析大量的大文件，需要对关键字的位置进行一些组/位置分析。我现在需要开始查找与我感兴趣的内容紧密嵌套的数字组。如果可能的话，我想避免使用正则表达式，因为这需要一个快速的过程。

可以提取文件的块来检查感兴趣的数字。然而，这需要更多的工作并增加搜索的硬编码限制。（我想避免这种情况）

我愿意接受任何建议。

更新

抱歉缺少示例数据。出于 HIPAA 的原因，我什至不想考虑打乱文本并将其发布。

任何 stackoverflow.com 问题页面的 HTML 源代码都是一个很好的替代品。想象一下，我需要获取所有发布问题答案的人的声誉（分数）。这也意味着还需要逗号 (,)。我无法删除 html 来简化内容，因为我正在使用一些密度分析来清除不相关的内容。删除 HTML 会使内容过于紧密地混合在一起。

原文

分享到QQ

分享到微博