SOLR:NGramFilterFactory 的问题
我正在运行 SOLR 作为包含 40000 多个文档的 Intranet 的搜索引擎。我使用 copyField 指令将 title 和 keywords 字段复制到 content 字段并仅对其进行…
我使用 Java HashMap 越多,性能下降得越多 - 即使大小稳定
我想扫描大量文本并计算词频(n-gram 频率实际上对于那些熟悉 NLP/IR 的人来说)。我为此使用 Java HashMap。所以发生的事情是我逐行处理文本。对于每…
从文本中提取关键短语(1-4 个单词的 ngram)
从文本块中提取关键短语的最佳方法是什么?我正在编写一个工具来进行关键字提取:类似这样的。我找到了一些用于 Python 和 Perl 的库来提取 n 元语法…
Solr NGramTokenizerFactory 和 PatternReplaceCharFilterFactory - 分析器结果与查询结果不一致
我目前正在使用我(错误地)认为是 Solr 的 NGramTokenizerFactory 的相当简单的实现,但我得到了管理分析器和实际查询结果之间不一致的奇怪结果,我…
使用 java hashmap 进行 n 元模型建模
我需要对 n 元语法(n 个单词的序列)及其上下文(出现在 n 元语法附近的单词及其频率)的集合进行建模。我的想法是这样的: public class Ngram { pr…
在 Python 中计算 n-gram 的逐点互信息 (PMI) 分数
我有一个很大的 n-gram 语料库和几个外部 n-gram。我想根据这个语料库(计数)计算每个外部 n-gram 的 PMI 分数。 有没有任何工具可以做到这一点,或…
安卓&模糊匹配、n-gram 和 Levenshtein 距离
我正在构建一个 Android 应用程序,它接受字符串输入并使用 Google API 返回书籍的排名列表。 我正在寻找一种方法来将用户输入的开放式字符串与列表中…
通过 shingles 和 termvector 组件自动完成
实现类似 Google 的自动完成功能的方法之一是将 shingles 和 Solr 1.4 中的 termvector 组件结合起来。 首先,我们使用 shingles 组件生成所有 n 元分…
使用马尔可夫模型将全大写转换为混合大小写及相关问题
我一直在考虑使用马尔可夫技术来恢复自然语言文本中丢失的信息。 将全部大写文本恢复为大小写混合。 将重音符号/变音符号恢复为应有但已转换为纯 ASCI…