我不可能理解所描述的字符串搜索方法。 uFFFF是什么？

发布于 2024-12-29 12:04:46 字数 330 浏览 0 评论 0原文

我正在阅读有关在排序的字符串数组中搜索字符串（范围）的内容。

它说：

如果你想查找所有以“h”开头的字符串，你可以运行对字符串“h”和“h\uFFFF”进行二分搜索。这给出了所有所有以“h”开头的键的 band 索引。请注意，一个二分查找可以返回字符串所在的索引，即使它实际上并不在数组中。

我不明白这一段的任何内容。

h\uFFFF 是什么，它如何帮助/在二分搜索中使用，最后一句话是否也意味着即使这个搜索也是错误的？

请问对理解这里所说的内容有帮助吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

羁客 2025-01-05 12:04:46

\uFFFF 是 16 位“字母表”中排在最后的“字符”，即在任何有效字母、字符或特殊符号之后。

当您在排序数组中对字符串进行二分搜索时，您会找到可以插入该字符串的位置。当您有多个相同的字符串时，您将获得第一个字符串之前的位置。当您在字符串后面附加“字母表的最后一个字母”时，插入点将位于最后一个相同字符串之后，从而在排序数组中为您提供一系列相同的字符串。

想象一下：假设您不允许在单词中使用字母 Z。现在您有了一个已排序的字符串数组：

0   1   2   3   4   5   6
aab abb abc abc abd bcx bdy

如果您搜索 abc，二分搜索会告诉您可以插入它的第一个位置，即 2。如果您搜索 abcZ >，但是，二分查找将返回 4，因为 abcZ 按字母顺序紧接在 abc 之后。这让您知道 2（含）和 4（不包括）之间的范围被字符串 abc 占据。如果两次搜索返回相同的数字，则您知道该字符串不存在于数组中。

在您引用的段落中， \uFFFF 在我的示例中扮演“禁止字母 Z”的角色。

\uFFFF is the "character" that sorts last in the 16-bit "alphabet", i.e. after any valid letter, character, or special symbol.

When you do binary search for a string in a sorted array, you find a place where that string could be inserted. When you have multiple identical strings, you get a location ahead of the first one. When you append "the last letter of the alphabet" after your string, the insertion point will be after the last of the identical strings, hence giving you a range of identical strings in a sorted array.

Imagine this: suppose you are not allowed to use letter Z in your words. Now you have a sorted array of strings:

0   1   2   3   4   5   6
aab abb abc abc abd bcx bdy

If you search for abc, binary search tells you the first place where you can insert it, which is 2. If you search for abcZ, thoug, binary search would return 4, because abcZ comes alphabetically right after abc. This lets you know that the range between 2, inclusive, and 4, exclusive, is occupied by the string abc. If both searches return the same number, you know that the string is not present in the array.

In the paragraph that you quoted, \uFFFF plays the role of the "prohibited letter Z" from my example.

回复收藏 0 原文

江南月 2025-01-05 12:04:46

\uFFFF 是 Java 中最大的字符。由于字符串已排序，因此搜索 h 将找到范围的开头，而 h\uFFFF 将找到结尾（假设此处为 unicode 字符串），因为无法找到第二个字符大于\uFFFF。即使它不能完全匹配字符串，搜索也会返回目标所在位置的索引，即使它并不真正存在。

更新：\uFFFF 是 16 位块中最大可能的可排序 unicode 字符，如果您正在使用 32 位块，请使用 U+10FFFF（无论其中的内容是什么）爪哇）。我个人从未在 Java 中使用过 32 位 unicode 块。请参阅5.2.0 规范的第 16.7 节。

U+FFFF 和 U+10FFFF。这两个非字符代码点具有
与最大代码单元值相关联的属性
特定的 Unicode 编码形式。在UTF-16中，U+FFFF是关联的
具有最大的16位代码单元值FFFF。 U+10FFFF 是
与最大合法 UTF-32 32 位代码单元值关联，
10FFFF。该属性呈现这两个非字符代码点
作为哨兵对于内部目的很有用。例如，它们可能是
用于指示列表的结尾，表示索引中的值
保证高于任何有效字符值，依此类推