Sphinx 的斯洛文尼亚词干分析器
我正在搜索斯洛文尼亚语的词干算法,我可以将其与 Sphinx 搜索一起使用。 我想要实现的目标是,例如,在搜索“jabolka”时,我还想要包含“jabolko”…
Python包在文件/url/字符串中查找预定义的关键字/标签
是否有任何 python 包可以获取关键字/标签列表并将它们与给定的字符串/文件/url 进行匹配? 特别是使用词干和/或一些其他同义词匹配方式。 即我预先保…
Lucene SpanishAnalyzer 类带有重音词的奇怪行为
我在 Lucene 3.4 中使用SpanishAnalyzer 类。当我想解析带重音的单词时,我得到了一个奇怪的结果。例如,如果我解析这两个单词:“comunicación”和“…
如何使用R语言tm(文本挖掘)包中的stemDocument?
我正在尝试使用调用Java的R语言tm包中的stemDocument来阻止语料库。 我已经尝试了 tm 手册中的示例: data("crude") crude[[1]] stemDocument(crude[[…
Lucene 同义词扩展、词干、拼写检查等
我正在使用 Lucene 来索引我的数据库,然后对特定字段(字段名称:关键字)执行短语搜索。 我当前正在使用以下代码: String userQuery = request.get…
如何使用 PHP 减少数组中包含的相似短语的数量?
我有一个包含短语(几个到数百个)的数组。 示例: adhesive materials adhesive material material adhesive adhesive applicator adhesive applicat…
避免 Solr 由于词干而缓慢突出显示
我对使用 Solr 还很陌生,但想寻求您的帮助。 我正在开发一个应用程序,它应该能够突出显示查询结果。为此,我使用正则表达式分段器: 500 0.5 ]]> ]]…
R 中的基本词干提取代替根词干提取
有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词? 代码: > #Loading libraries > library(tm) > library(slam) > > #Vector > Vec=c("happ…
如何获取同义词集的所有属性?
请给我一个示例,其中包含单词的 synset 的所有属性 我只知道这个属性: name 、 lemma_names 、 definition synsetsWord = ObjWn.synsets( 'Book' ) …
在 NLTK 中导入 WordNet
我想导入 wordnet 字典,但是当我导入字典表单 wordnet 时,我看到此错误: for l in open(WNSEARCHDIR+'/lexnames').readlines(): IOError: [Errno 2…
Nltk 中的 WordNetLemmatizer 可以词干吗?
我想使用 Wordnet 查找词干。 wordnet 有词干提取功能吗? 我使用此导入进行词干提取,但它没有按预期工作。 from nltk.stem.wordnet import WordNetL…