当前位置：文江博客话题详情

用公共部分压缩字符串

发布于 2024-12-09 14:21:54 字数 319 浏览 0 评论 0原文

我有一个管理大量字符串的应用程序。字符串采用类似路径的格式，有许多共同部分，但没有明确的规则。它们不是文件系统上的路径，但可以这样考虑。我显然需要优化内存消耗，但又不会牺牲很大的性能。

我正在考虑两种选择：
- 实现一个存储压缩数据的compressed_string类，但我需要一个固定的字典，但现在找不到一个库。我不想要字节上的霍夫曼，我想要文字上的霍夫曼。
- 在字符串部分实现某种flyweight模式。

这个问题看起来很常见，我想知道最好的解决方案是什么，或者是否有人知道针对此问题的库。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蓝海似她心 2024-12-16 14:21:54

尽管针对您的问题调整特定算法可能很诱人，但这可能需要不合理的时间和精力，而标准压缩技术将立即为您解决内存消耗问题提供巨大的推动力。

处理这个问题的“标准”方法是将源数据分成小块（例如256KB），然后单独压缩它们。当访问块中的数据时，需要首先对其进行解码。因此，最佳的块大小实际上取决于您的应用程序，即应用程序流越多，块就越大；另一方面，随机访问模式越多，块大小越小。

如果您担心压缩/解压缩速度，请使用高速算法。如果解压速度是最重要的指标（对于访问时间），LZ4 之类的东西将为您提供大约 1GB/s 的每核解码性能，因此这可以让您了解每秒可以处理多少个块解码。

如果只注重解压速度，您可以使用高压缩变体 LZ4-HC，它将压缩比提高约 30%，同时还提高解压速度。

回复收藏 0 原文

灰色世界里的红玫瑰 2024-12-16 14:21:54

字符串采用类似路径的格式，并且有许多公共部分，但没有明确的规则。

从某种意义上说，它们是 name、(separator、name)* 形式的层次结构中的定位器？如果是这样，您可以使用interning：存储 name 部分作为指向字符串池的 char const * 元素。这样，您就可以有效地将使用 n 次的名称压缩到刚好超过 n * sizeof(char const *) + strlen(name) 字节。完整路径将成为一系列内部名称，例如 std::vector。

看起来 sizeof(char const *) 在 64 位硬件上很大，但您也节省了一些分配开销。或者，如果您出于某种原因知道您永远不会需要超过 65536 个字符串，您可以将它们存储为

class interned_name
{
    uint16_t tab_idx;

  public:
    char const *c_str() const
    {
        return NAME_TABLE[tab_idx];
    }
};

NAME_TABLE 是 static std::unordered_map。

Strings are in a path-like format and have many common parts, but without a clear rule.

In the sense that they are locators in a hierarchy of the form name, (separator, name)*? If so, you can use interning: store the name parts as char const * elements that point into a pool of strings. That way, you effectively compress a name that is used n times to just over n * sizeof(char const *) + strlen(name) bytes. The full path would become a sequence of interned names, e.g. an std::vector.

It might seem that sizeof(char const *) is big on 64-bit hardware, but you also save some of the allocation overhead. Or, if you know for some reason that you'll never need more than, say, 65536 strings, you might store them as

class interned_name
{
    uint16_t tab_idx;

  public:
    char const *c_str() const
    {
        return NAME_TABLE[tab_idx];
    }
};

where NAME_TABLE is an static std::unordered_map<uint16_t, char const *>.

回复收藏 0 原文

~没有更多了~

关于作者

趁微风不噪

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

用公共部分压缩字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

用公共部分压缩字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。