n-gram

n-gram

文章 0 浏览 3

SOLR:NGramFilterFactory 的问题

我正在运行 SOLR 作为包含 40000 多个文档的 Intranet 的搜索引擎。我使用 copyField 指令将 title 和 keywords 字段复制到 content 字段并仅对其进行…

甚是思念 2024-12-10 05:24:43 2 0

如何高效存储大量ngram?

我从十六进制形式的二进制项目中提取 4 克,这意味着每个项目最多可以有 65535 克。 我想将每个项目与其克数及其频率相关联,但我对如何存储所有内容…

死开点丶别碍眼 2024-12-09 14:16:15 0 0

NLP算法“填写”搜索词

我正在尝试编写一种算法(我假设该算法将依赖于自然语言处理技术)来“填写”搜索词列表。这种东西可能有一个我不知道的名字。这种问题叫什么,什么样…

乜一 2024-12-07 20:46:19 2 0

快速 n 元语法计算

我正在使用 NLTK 在语料库中搜索 n-gram,但在某些情况下需要很长时间。我注意到计算 n 元语法在其他软件包中并不是一个不常见的功能(显然 Haystack …

随风而去 2024-12-07 03:06:29 1 0

我使用 Java HashMap 越多,性能下降得越多 - 即使大小稳定

我想扫描大量文本并计算词频(n-gram 频率实际上对于那些熟悉 NLP/IR 的人来说)。我为此使用 Java HashMap。所以发生的事情是我逐行处理文本。对于每…

你穿错了嫁妆 2024-12-05 22:04:21 1 0

MySQL 中的 n 元语法计数

我正在构建一个包含大约 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档(大多数情况下是几页文本)。我想在整个数据库中进行各种 n 元语…

云雾 2024-12-05 21:21:01 1 0

对文本进行分类时自动将类别相互链接

我一直在从事一个项目,对大量短文本进行数据挖掘,并根据预先存在的大量类别名称列表对这些文本进行分类。为此,我必须弄清楚如何首先从数据中创建一…

她比我温柔 2024-11-30 02:39:29 2 0

从文本中提取关键短语(1-4 个单词的 ngram)

从文本块中提取关键短语的最佳方法是什么?我正在编写一个工具来进行关键字提取:类似这样的。我找到了一些用于 Python 和 Perl 的库来提取 n 元语法…

无名指的心愿 2024-11-29 19:28:07 0 0

Solr NGramTokenizerFactory 和 PatternReplaceCharFilterFactory - 分析器结果与查询结果不一致

我目前正在使用我(错误地)认为是 Solr 的 NGramTokenizerFactory 的相当简单的实现,但我得到了管理分析器和实际查询结果之间不一致的奇怪结果,我…

尤怨 2024-11-17 04:18:49 3 0

使用 java hashmap 进行 n 元模型建模

我需要对 n 元语法(n 个单词的序列)及其上下文(出现在 n 元语法附近的单词及其频率)的集合进行建模。我的想法是这样的: public class Ngram { pr…

聽兲甴掵 2024-11-05 22:10:56 3 0

在 Python 中计算 n-gram 的逐点互信息 (PMI) 分数

我有一个很大的 n-gram 语料库和几个外部 n-gram。我想根据这个语料库(计数)计算每个外部 n-gram 的 PMI 分数。 有没有任何工具可以做到这一点,或…

别把无礼当个性 2024-10-20 23:30:55 1 0

安卓&模糊匹配、n-gram 和 Levenshtein 距离

我正在构建一个 Android 应用程序,它接受字符串输入并使用 Google API 返回书籍的排名列表。 我正在寻找一种方法来将用户输入的开放式字符串与列表中…

无戏配角 2024-10-19 09:28:27 5 0

如何找出文本块中最常用的 2 个单词组合?

如何从一段文本中找出我最常用的两个单词?换句话说,是否有一个在线或离线(或代码)工具,我可以在其中复制和粘贴文本,并输出我最常用的两个词频,…

古镇旧梦 2024-10-16 23:11:30 5 0

通过 shingles 和 termvector 组件自动完成

实现类似 Google 的自动完成功能的方法之一是将 shingles 和 Solr 1.4 中的 termvector 组件结合起来。 首先,我们使用 shingles 组件生成所有 n 元分…

笑忘罢 2024-10-16 18:14:34 6 0

使用马尔可夫模型将全大写转换为混合大小写及相关问题

我一直在考虑使用马尔可夫技术来恢复自然语言文本中丢失的信息。 将全部大写文本恢复为大小写混合。 将重音符号/变音符号恢复为应有但已转换为纯 ASCI…

好菇凉咱不稀罕他 2024-10-08 05:56:16 13 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文