Python:查找二元组的词汇
我有一个推文列表(标记化和预处理)。就像这样: ['AT_TOKEN', 'what', 'AT_TOKEN', 'said', 'END', 'AT_TOKEN', 'plus', 'you', 've', 'added', 'co…
使用 java 的 BiGrams Spark
我已经将句子放入 RDD 中,输出如下所示: RT @DougJ7777:如果英国赢得#Eurovision,那么我们必须重新加入 欧盟。这是规则里的。 #Eurovision2018 RT…
使用 ElasticSearch 搜索文件名
我想使用 ElasticSearch 搜索文件名(而不是文件内容)。因此我需要找到文件名的一部分(完全匹配,没有模糊搜索)。 示例: 我的文件具有以下名称: …
Solr ngram 与数字不匹配?
我正在使用标准 Solr ngram 字段定义 - 现在“item:ipad AND item:2”找到“iPad 2”,但“item_ngram:ipad AND item_ngram:2”却找不到。 有什么想法…
使用递归 N-Gram 压缩文本
我只是想通过使用递归 2-Gram 存储将一大组文本分解为单个整数,直到只剩下一个值。 table pair { id first_parent_id (points to -> this.id) second…
使用 python 的一元语法
我正在尝试从文本文件生成一元语法。但仅显示给定文件第一行的二元组。我想显示文件中所有句子的一元语法。 import string; import sys; import token…
如何在scala中生成n-gram?
我正在尝试在 scala 中编写基于 n-gram 的分离新闻算法。 如何为大文件生成 n-gram: 例如,对于包含“蜜蜂是蜜蜂中的蜜蜂”的文件。 首先它必须选择…
SOLR:NGramFilterFactory 的问题
我正在运行 SOLR 作为包含 40000 多个文档的 Intranet 的搜索引擎。我使用 copyField 指令将 title 和 keywords 字段复制到 content 字段并仅对其进行…
我使用 Java HashMap 越多,性能下降得越多 - 即使大小稳定
我想扫描大量文本并计算词频(n-gram 频率实际上对于那些熟悉 NLP/IR 的人来说)。我为此使用 Java HashMap。所以发生的事情是我逐行处理文本。对于每…