当前位置：文江博客话题详情

如何高效存储大量ngram？

发布于 2024-12-09 14:16:15 字数 298 浏览 8 评论 0原文

我从十六进制形式的二进制项目中提取 4 克，这意味着每个项目最多可以有 65535 克。

我想将每个项目与其克数及其频率相关联，但我对如何存储所有内容感到困惑 - 这是我的第一次数据挖掘经验，我对最佳实践和常用工具没有任何线索。

我正在简单地考虑在关系数据库中构建一个大表，其模式如 (ITEM-NAME, GRAM1, GRAM2... GRAM65535) 并在其中存储频率，但我可以看到这种方法是由于列数太多，非常不切实际。

我知道一定有更好的解决方案，但我不知道该去哪里寻找。

建议？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜心小果奶 2024-12-16 14:16:16

存储 ngram 的最佳方式是 prefixTree 恕我直言。
用于非常高效的 lingpipe 库。

树的示例：

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

其他选项是以倒排索引的格式存储：
ngramm-> item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

注意：第二个选项不存储对于 ngram 至关重要的订单信息...

The best way to store ngram is prefixTree IMHO.
Is is used to in very efficient library lingpipe.

Example of tree:

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

Other option is to store in format of inverted index:
ngramm -> item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

Note: Second option does not store order information which is crucial for ngram...

回复收藏 0 原文

~没有更多了~

关于作者

死开点丶别碍眼

暂无简介

文章

28 人气

关注发私信

眼泪淡了忧伤

文章 0 评论 0

关注

corot39

文章 0 评论 0

关注

守护在此方

文章 0 评论 0

关注

github_3h15MP3i7

文章 0 评论 0

关注

相思故

文章 0 评论 0

关注

滥情空心

文章 0 评论 0

友情链接

文江博客

如何高效存储大量ngram？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

眼泪淡了忧伤

corot39

守护在此方

github_3h15MP3i7

相思故

滥情空心

友情链接

如何高效存储大量ngram？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

眼泪淡了忧伤

corot39

守护在此方

github_3h15MP3i7

相思故

滥情空心

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。