如何高效存储大量ngram?

发布于 2024-12-09 14:16:15 字数 298 浏览 0 评论 0原文

我从十六进制形式的二进制项目中提取 4 克,这意味着每个项目最多可以有 65535 克。

我想将每个项目与其克数及其频率相关联,但我对如何存储所有内容感到困惑 - 这是我的第一次数据挖掘经验,我对最佳实践和常用工具没有任何线索。

我正在简单地考虑在关系数据库中构建一个大表,其模式如 (ITEM-NAME, GRAM1, GRAM2... GRAM65535) 并在其中存储频率,但我可以看到这种方法是由于列数太多,非常不切实际。

我知道一定有更好的解决方案,但我不知道该去哪里寻找。

建议?

I am extracting 4-grams from binary items in hexadecimal form, this mean I can have at most 65535 different grams per item.

I want to associate every item to it's grams and their frequency but I am puzzled on how to store everything – this is my first data mining experience and I don't have any clue about best practices and common tools.

I was trivially thinking to build a big table in a relational database with a schema like (ITEM-NAME, GRAM1, GRAM2... GRAM65535) and store inside it the frequencies but I can see this approach is uber impratical because of the number of columns.

I know there must be better solutions out there but I don't know where to look at.

Suggestions?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

甜心小果奶 2024-12-16 14:16:16

存储 ngram 的最佳方式是 prefixTree 恕我直言。
用于非常高效的 lingpipe 库。

树的示例:

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

其他选项是以倒排索引的格式存储:
ngramm-> item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

注意:第二个选项不存储对于 ngram 至关重要的订单信息...

The best way to store ngram is prefixTree IMHO.
Is is used to in very efficient library lingpipe.

Example of tree:

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

Other option is to store in format of inverted index:
ngramm -> item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

Note: Second option does not store order information which is crucial for ngram...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文