获取字符串的数字/规范化表示以帮助“自然排序” DB 中的标题数

发布于 2024-07-14 09:38:34 字数 690 浏览 13 评论 0原文

我想在表中存储一个附加列作为“排序值”，它是标题列的数字表示形式，这样这些值的顺序代表字符串的自然字母排序顺序。即，这样我就可以检索按排序值排序的行，并且它们将按自然排序顺序 - 当我插入新行时，我可以生成数值并知道相对于其他值的值将代表字符串的位置按字母顺序搜索，精确到前 X 个字母左右。

这样做有几个原因：首先，我想要比数据库服务器提供的简单排序更自然的排序，其中“The”和“A”以及标点符号之类的内容在开头被忽略，数字被“自然”地对待'。

其次，这适用于具有大量排列的索引 - 它将节省空间，并且在遍历具有许多行的索引时可能还节省时间。

我想要的是将字符串转换为该数值的算法，或者我认为只是一个标准化的字符串值。

我正在使用 PHP 和 MySQL。

我担心“从数据库中提取所有内容并使用 natcasesort() 在 PHP 中排序”并不是这种特殊情况的解决方案，因为我想在行之前按排序顺序检索行（使用 order by 和 group by）获得连接或限制子句。谢谢。

编辑：

感谢您迄今为止的回答。我突然想到我的应用程序使用 UTF-8 的事实是非常相关的。话虽如此，我认为以压缩/数字形式表示字符串的初始部分的实用性是一种延伸，也许只是某种标准化形式（所有内容都大小写折叠，数字零填充，以及尽可能多的字符）归一化为它们的根，即 ã 到 a) 是合适的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜心小果奶 2024-07-21 09:38:34

“精确到前 X 个字母左右”部分至关重要，因为完全准确的数字分配是不可能的。要看到这一点，具体假设您的 title 列是 varchar(50) 并且您想要使用 32 位 integer sort_order 列。然后，您可以存储 (255^51 - 1) 个不同的标题，每个标题都需要不同的 sort_order 值 - 但只有 2^32 个不同的 sort_order 值可以存储四处走走。即使您说您永远不会添加超过 2^32 行，您也需要提前知道它们将具有哪些标题，以便提出一个避免重新分配所有 sort_order 值的方案每次插入一行时。

尽管“理论上完美”的解决方案是不可能的，但仍然有可能获得一个实用的“近似”系统，该系统应该能够以完美的精度工作，最多可处理数百万行。最简单的方法是使用浮点类型。首先，按排序顺序列出行，并将第一行的 sort_order 值指定为 1.0，将第二行的值指定为 2.0，依此类推。然后，每当插入一行时，将其 sort_order 设置为排序顺序两侧行的中点（即平均值）。如果新添加的行位于所有现有行之前（或之后），只需将其设置为比之前的最小（或最大）sort_order 值小（或多）1。

最好从头开始重新分配数字（如在初始构建步骤中）以定期或在大量更新后“平滑”值。特别是如果表格开始时很小然后变大，您可能会在末尾发现一些数字“聚集”。