当前位置：文江博客话题详情

从大文本中构建单词词典

发布于 2024-08-28 14:16:53 字数 278 浏览 6 评论 0原文

我有一个包含英语/意大利语帖子的文本文件。我想将帖子读入数据矩阵，以便每一行代表一篇帖子，每列代表一个单词。矩阵中的单元格是每个单词在帖子中出现的次数的计数。该词典应包含整个文件中的所有单词或非详尽的英语/意大利语词典。

我知道这是 NLP 常见的基本预处理步骤。我知道编码它非常简单，但我想使用一些 NLP 领域特定的工具，这样我就可以修剪停用词等。

有谁知道可以执行此任务的工具\项目吗？

有人提到apache lucene，你知道lucene索引是否可以序列化为类似于我需要的数据结构吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

—━☆沉默づ 2024-09-04 14:16:53

也许您想查看GATE。它是文本挖掘和处理的基础设施。这就是 GATE 所做的（我从网站上得到的）：

能够解决几乎所有文本处理问题的开源软件
一个由开发人员、用户、教育工作者、学生和科学家组成的成熟而广泛的社区
一个定义的、可重复的过程，用于创建强大且可维护的过程文本处理工作流程
积极用于各种语言处理任务和应用程序，包括：客户的声音；癌症研究；药物研究；决策支持；招聘;网络挖掘；信息提取；语义注释
是自 1995 年以来运行的耗资数百万欧元的研发计划的结果，由商业用户、EC、BBSRC、EPSRC、AHRC、JISC 等资助，
全世界的公司、中小企业、研究实验室和大学都在使用
Eclipse自然语言工程、信息提取的 Lucene、文本挖掘的 ISO 9001

回复收藏 0 原文

一刻暧昧 2024-09-04 14:16:53

您想要的非常简单，因此在大多数语言中，我建议您使用从字符串映射到整数的哈希表数组来推出自己的解决方案。例如，在 C# 中：

foreach (var post in posts)
{
  var row = new Dictionary<string, int>();

  foreach (var word in GetWordsFromPost(post))
  {
    IncrementContentOfRow(row, word);
  }
}

// ...

private void IncrementContentOfRow(IDictionary<string, int> row, string word)
{
  int oldValue;
  if (!row.TryGet(word, out oldValue))
  {
    oldValue = 0;
  }

  row[word] = oldValue + 1;
}

What you want is so simple that, in most languages, I would suggest you roll your own solution using an array of hash tables that map from strings to integers. For example, in C#:

foreach (var post in posts)
{
  var row = new Dictionary<string, int>();

  foreach (var word in GetWordsFromPost(post))
  {
    IncrementContentOfRow(row, word);
  }
}

// ...

private void IncrementContentOfRow(IDictionary<string, int> row, string word)
{
  int oldValue;
  if (!row.TryGet(word, out oldValue))
  {
    oldValue = 0;
  }

  row[word] = oldValue + 1;
}

回复收藏 0 原文