在哪里可以找到词性标注器使用的短代码的扩展?
所有词性 (POS) 标记器都以短代码的形式提供标记,例如(NNS、VBZ 等)。 此/DT页面/NN是/VBZ关于/在/DT Brill-tagger/NNP 就像上面的示例一样,它来…
使用免费工具进行实体提取/识别,同时提供 Lucene 索引
我目前正在研究从文本(许多文章来自网络)中提取人名、位置、技术单词和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后附加信息作为…
如何在 OpenNLP 中训练命名实体识别器标识符?
好的,我有以下代码来训练来自 OpenNLP 的 NER 标识符, FileReader fileReader = new FileReader("train.txt"); ObjectStream fileStream = new Plai…
从 MongoDB 中的文本字段生成 Unigram 列表的最有效方法
我需要生成一个一元组向量,即出现在特定文本字段中的所有唯一单词的向量,我将其存储为 MongoDB 中更广泛的 JSON 对象的一部分。 我不太确定生成这个…
OpenNLP 头规则
我正在尝试使用 openNLP 教程 http://sourceforge.net/apps/mediawiki/opennlp/index.php?title=Parser#Training 。唯一的问题是需要一个 head_rules …
如何将 OpenNLP 与 Java 结合使用?
我想对一个英文句子进行 POStag 并进行一些处理。我想使用 openNLP。我已经安装了它 当我执行命令时 I:\Workshop\Programming\nlp\opennlp-tools-1.5.…
有没有办法使用 OpenNLP 获取句子的主语?
有没有办法使用 OpenNLP 获取句子的主语? 我试图确定用户句子中最重要的部分。一般来说,用户会向我们的“引擎”提交句子,我们想确切地知道该句子的…
如何解决“缺少manifest.properties”问题在 OpenNLP 中?
我正在尝试使用 OpenNLP 进行标记化。我不知道出了什么问题。以下是例外情况: opennlp.tools.util.InvalidFormatException: Missing the manifest.pr…
OpenNLP 无法识别“2009 年 1 月 10 日”格式的日期吗?
OpenNLP(Java 中)无法识别“2010 年 1 月 10 日”或“2010 年 1 月 10 日”格式的日期。在使用 OpenNLP 分词器之前,我将文本中的所有 ', 替换为空…
从文本中提取名词+名词或(形容词|名词)+名词
是否可以使用 R 包 openNLP 提取 noun+noun 或 (adj|noun)+noun?也就是说,我想使用语言过滤来提取候选名词短语。你能指导我该怎么做吗? 非常感谢。…