当前位置：文江博客话题详情

String.Split效率问题

发布于 2024-10-01 02:04:25 字数 521 浏览 5 评论 0原文

我正在编写一个搜索应用程序，用于标记大型文本语料库。

文本解析器需要从文本中删除任何乱码（即[^a-zA-Z0-9]）

我脑子里有两个想法如何做到这一点：

1）将文本放入字符串中，将其转换为 charArray使用 String.tocharArray，然后使用循环逐个字符运行 -> while(位置<字符串.长度) 这样做，我可以在一次对文本的运行中标记整个字符串数组。

2）使用 string.replace 去除所有非数字/字母，然后使用一些分隔符进行 string.split ，这意味着我必须在整个字符串上运行两次。一次删除坏字符，然后再次拆分它。

我假设，由于 #1 与 #2 的作用相同，但在 O(n) 中它会更快，但在测试了两者之后，#2 更快。

我更进一步，使用 red-gate .net 反射器查看了 String.Strip 背后的代码。它按字符运行非托管字符，就像 #1 一样，但速度仍然快得多。

我不知道为什么#2 比#1 快得多。

有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清君侧 2024-10-08 02:04:25

这个想法怎么样：

创建一个字符串
将整个数据集加载到字符串中
创建一个具有足够预分配空间以容纳整个字符串的 StringBuilder
逐个字符地遍历字符串，如果字符是字母数字，则将其添加到 StringBuilder。
最后，从 StringBuilder 中取出字符串。

我不知道这是否会比您已经尝试过的更快，但上述时间至少应该回答这个问题。

回复收藏 0 原文

墟烟 2024-10-08 02:04:25

djTeller，
事实上#2 更快只是相对于你的#1 方法而言。
您可能想与我们分享您的#1 方法；也许它只是非常慢，甚至有可能比 #2 更快。
是的，两者本质上都是 O(n)，但实际实现是 O(n)；你实际上是怎么做到#1的？

另外，当你说你测试了两者时，我希望你进行了大量的输入来克服误差幅度并看到两者之间的显着差异。

回复收藏 0 原文

~没有更多了~

关于作者

逆流

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

String.Split效率问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

String.Split效率问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。