n-gram

n-gram

文章 0 浏览 4

Python:查找二元组的词汇

我有一个推文列表(标记化和预处理)。就像这样: ['AT_TOKEN', 'what', 'AT_TOKEN', 'said', 'END', 'AT_TOKEN', 'plus', 'you', 've', 'added', 'co…

相思故 2025-01-10 01:55:16 1 0

使用 java 的 BiGrams Spark

我已经将句子放入 RDD 中,输出如下所示: RT @DougJ7777:如果英国赢得#Eurovision,那么我们必须重新加入 欧盟。这是规则里的。 #Eurovision2018 RT…

拧巴小姐 2025-01-09 04:58:33 1 0

使用 ElasticSearch 搜索文件名

我想使用 ElasticSearch 搜索文件名(而不是文件内容)。因此我需要找到文件名的一部分(完全匹配,没有模糊搜索)。 示例: 我的文件具有以下名称: …

七月上 2025-01-08 14:10:05 0 0

Trie(三元搜索树)的 J2ME 实现

我目前正在研究预测文本短信系统。我想使用 TST 数据结构和二元语法(根据当前按键序列 12 键盘预测下一个可能的单词)来实现它。 目前我有一个语料库…

源来凯始玺欢你 2025-01-06 20:52:26 1 0

Solr ngram 与数字不匹配?

我正在使用标准 Solr ngram 字段定义 - 现在“item:ipad AND item:2”找到“iPad 2”,但“item_ngram:ipad AND item_ngram:2”却找不到。 有什么想法…

清风疏影 2024-12-25 00:38:03 2 0

使用递归 N-Gram 压缩文本

我只是想通过使用递归 2-Gram 存储将一大组文本分解为单个整数,直到只剩下一个值。 table pair { id first_parent_id (points to -> this.id) second…

心意如水 2024-12-24 19:59:42 2 0

使用 python 的一元语法

我正在尝试从文本文件生成一元语法。但仅显示给定文件第一行的二元组。我想显示文件中所有句子的一元语法。 import string; import sys; import token…

◇流星雨 2024-12-18 17:14:22 1 0

如何在scala中生成n-gram?

我正在尝试在 scala 中编写基于 n-gram 的分离新闻算法。 如何为大文件生成 n-gram: 例如,对于包含“蜜蜂是蜜蜂中的蜜蜂”的文件。 首先它必须选择…

倒数 2024-12-18 00:40:41 1 0

SOLR:NGramFilterFactory 的问题

我正在运行 SOLR 作为包含 40000 多个文档的 Intranet 的搜索引擎。我使用 copyField 指令将 title 和 keywords 字段复制到 content 字段并仅对其进行…

甚是思念 2024-12-10 05:24:43 4 0

如何高效存储大量ngram?

我从十六进制形式的二进制项目中提取 4 克,这意味着每个项目最多可以有 65535 克。 我想将每个项目与其克数及其频率相关联,但我对如何存储所有内容…

死开点丶别碍眼 2024-12-09 14:16:15 4 0

NLP算法“填写”搜索词

我正在尝试编写一种算法(我假设该算法将依赖于自然语言处理技术)来“填写”搜索词列表。这种东西可能有一个我不知道的名字。这种问题叫什么,什么样…

乜一 2024-12-07 20:46:19 4 0

快速 n 元语法计算

我正在使用 NLTK 在语料库中搜索 n-gram,但在某些情况下需要很长时间。我注意到计算 n 元语法在其他软件包中并不是一个不常见的功能(显然 Haystack …

随风而去 2024-12-07 03:06:29 2 0

我使用 Java HashMap 越多,性能下降得越多 - 即使大小稳定

我想扫描大量文本并计算词频(n-gram 频率实际上对于那些熟悉 NLP/IR 的人来说)。我为此使用 Java HashMap。所以发生的事情是我逐行处理文本。对于每…

你穿错了嫁妆 2024-12-05 22:04:21 3 0

MySQL 中的 n 元语法计数

我正在构建一个包含大约 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档(大多数情况下是几页文本)。我想在整个数据库中进行各种 n 元语…

云雾 2024-12-05 21:21:01 3 0

对文本进行分类时自动将类别相互链接

我一直在从事一个项目,对大量短文本进行数据挖掘,并根据预先存在的大量类别名称列表对这些文本进行分类。为此,我必须弄清楚如何首先从数据中创建一…

她比我温柔 2024-11-30 02:39:29 4 0
更多

推荐作者

卷耳

文章 0 评论 0

佚名

文章 0 评论 0

℉服软

文章 0 评论 0

qq_2gSKZM

文章 0 评论 0

凉宸

文章 0 评论 0

gyhjy

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文