标签的高效数据结构？

发布于 2024-10-03 18:14:23 字数 474 浏览 6 评论 0原文

想象一下，您想要序列化和反序列化 stackoverflow 帖子，包括其标签，以尽可能有效地节省空间（以二进制形式），同时也为了在进行标签查找时提高性能。有没有适合这种场景的良好数据结构？

Stackoverflow 有大约 28532 个不同的标签，您可以创建一个包含所有标签的表并为它们分配一个整数，此外您可以按频率对它们进行排序，以便最常见的标签具有最少的数字。从搜索和存储的角度来看，仍然像“1 32 45”格式的字符串一样简单地存储它们似乎有点低效

。另一个想法是将标签保存为变量位数组，从查找和序列化的角度来看，这很有吸引力。由于最常见的标签是第一个，因此您可以将标签放入少量内存中。

问题当然是不常见的标签会产生巨大的位数组。对于大范围的 0 是否有“压缩”位数组的标准？或者应该完全使用其他结构？

编辑

我不是在寻找数据库解决方案或需要将整个表保留在内存中的解决方案，而是寻找用于过滤单个项目的结构

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

星 2024-10-10 18:14:23

并不是要破坏你的问题，但 28k 条记录确实不算多。您是否可能过早地进行优化？
我首先会坚持在数据库表上使用“常规”索引。他们使用的严厉启发式方法通常非常有效，并且不容易被击败（或者如果可以的话，它真的值得及时付出努力吗？收益是否足够大？）。

另外，根据您实际执行标签查询的位置，用户是否真的注意到您优化的 200 毫秒时间增益？

首先测量然后优化:-)

编辑

如果没有数据库，我可能会有一个主表，将所有标签与 ID 一起保存（如果可能的话将其保存在内存中）。将定期排序的 ID 列表与每个帖子一起保存。

不确定基于通用性的存储量会有多少帮助。可以在其中进行常规二分搜索的排序列表可能足够快；措施:-)

不过，在这里您需要迭代每个标签查询的所有帖子。

如果这最终变得很慢，您可以为每个标签存储一些帖子标识符。不过，该数据结构可能会变得有些大，并且可能需要一个文件来查找和读取。

对于较小的表，您可以根据哈希值（具有重复项）构建一个表。通过这种方式，您可以使用它快速找到需要进一步检查以查看它们是否匹配的较小的候选帖子列表。

回复收藏 0 原文

戈亓 2024-10-10 18:14:23

您需要第二个包含 2 个字段的表： tag_id Question_id

就是这样。然后您在 tag_id、question_id 和 Question_id、tag_id 上创建索引 - 这将覆盖索引，因此您的所有查询都会非常快。

回复收藏 0 原文

永不分离 2024-10-10 18:14:23

我有一种感觉，你的问题太抽象了；您没有详细说明您想要如何访问数据结构，这非常重要。

话虽这么说，我建议计算每个标签出现的次数，然后使用 Huffman 编码来提出可用于标签的最短编码。这并不完全完美，但我会坚持下去，直到你证明它是不合适的。然后，您可以将代码与每个问题关联起来。

回复收藏 0 原文

野却迷人 2024-10-10 18:14:23

如果您想有效地查找特定标签内的问题，您将需要某种索引。也许，所有 Tag 对象都可以有一个引用数组（引用、指针、数字 ID 等），指向用此特定标签标记的所有问题。这样，您只需要找到标签对象，并且您就有一个指向该标签的所有问题的数组。

回复收藏 0 原文

~没有更多了~

关于作者

筑梦

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

标签的高效数据结构？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

标签的高效数据结构？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。