字符串重复子序列和压缩

发布于 2024-09-07 04:55:25 字数 534 浏览 9 评论 0原文

我想做某种“搜索和替换”算法，如果可能的话，它将以有效的方式识别字符串中多次出现的子字符串，并用标记替换该子字符串的所有出现。

例如，给定一个字符串“AbcAdAefgAbijkAblmnAbAb”，请注意“A”重复出现，因此将第一个传递减少为“#1bc#1d#1efg#1bijk#1blmn#1b#1b”，其中#_是索引模式（我们注意到索引表中的模式），然后注意“#1b”重复出现，因此减少为“#2c#1d#1efg#2ijk#2lmn#2#2”。字符串中不再出现任何模式，因此我们完成了。

我找到了一些有关“最长公共子序列”和压缩算法的信息，但似乎没有任何作用。它们要么用于比较两个字符串，要么用于获得某种存储最佳结果。

另一方面，我的目标是将基因组简化为“单词”而不是“字母”。即，我想看到 2c1c2c，而不是 gatcatcgatc。之后我可以做一些正则表达式来查找诸如“#42*#42”之类的东西；如果能在 DNA 中看到重复出现的括号，那就太酷了。

如果我能在网上找到这个，我会跳过自己做，但我之前看不到这个问题的答案，我可以发现。对于任何能给我指出正确方向的人，非常感谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

〃温暖了心ぐ 2024-09-14 04:55:25

字节对编码的作用与您想要的非常接近。
而不是直接搜索最长的重复字符串（自上而下），
每一次字节对编码都会搜索重复的字节对（自下而上）。
但最终它发现了最长的重复字符串（*）。

gatcatcgatc
1=at g1c1cg1c
2=atc g22g2
3=gatc 2=atc 323

正如你所看到的，它找到了最长的重复字符串“gatc”。

(*) 字节对编码最终找到最长的重复字符串，
否则它会在进行 (2^8 - uniquechars(source) ) 替换后提前停止。
我怀疑可以调整字节对编码，以便提前停止条件稍微放松——也许是 (2^9 - uniquechars(source) ) 或 2^12 或 2^16。
即使这会损害压缩性能，也许它会给像您这样的应用程序带来有趣的结果。