Rabin-Karp 字符串搜索算法
我的上一个问题与一般字符串搜索算法有关。 我正在研究 Rabin-Karp 算法,我有一个函数模板,例如:
RabinKarpMatch(char *Text, char *Search_phrase,int radix,int prime)
我想知道基数和素数的值将如何根据搜索短语和文本而变化?或者我应该为所有情况赋予它们任意值?
My previous question pertained to the general string search algorithm.
I am researching the Rabin-Karp algorithm and I have a function template like:
RabinKarpMatch(char *Text, char *Search_phrase,int radix,int prime)
I wanted to know how the values of the radix and prime will change according to the search_phrase and text? Or should I just give them arbitrary values for all the cases?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
在 Rabin-Karp 算法中,基数和素数在文本处理过程中不会改变。但选择好的基数和素数至关重要。在最坏的情况下(实际上几乎不可能),当文本的所有子字符串具有与模板哈希码相同的哈希码时,算法将在 O(nm) 时间内工作,其中 n 是文本长度,m 是模板长度。
一般规则:素数 - 必须小,基数 - 必须方便使用。
我相信像这样的对:
(prime, radix)
31, 2^64
37, 2^64
57, 2^64
对你来说没问题。
在一些实现中,为了最小化散列冲突,使用了多于一对的散列冲突。
In Rabin-Karp algorithm radix and prime don't change during text processing. But choosing good radix and prime numbers has a critical importance. In worst case (almost impossible in practice) when all substrings of the text have the same hash code equal to template hash code, algorithm will work on O(nm) time, where n is text length and m is template length.
General rule: Prime - must be small, and radix - must be convenient to use.
I believe pairs like:
(prime, radix)
31, 2^64
37, 2^64
57, 2^64
will be OK for you.
In some implementations to minimize hash collisions more than one pair is used.
RABIN KARP 字符串匹配算法
代码:
代码输出
RABIN KARP STRING MATCHING ALGORITHM
CODE:
OUTPUT FOR THE CODE