n-gram

投稿关注

文章 0 浏览 4

Python：查找二元组的词汇

我有一个推文列表（标记化和预处理）。就像这样： ['AT_TOKEN', 'what', 'AT_TOKEN', 'said', 'END', 'AT_TOKEN', 'plus', 'you', 've', 'added', 'co…

相思故 2025-01-10 01:55:16 1 0

使用 java 的 BiGrams Spark

我已经将句子放入 RDD 中，输出如下所示： RT @DougJ7777：如果英国赢得#Eurovision，那么我们必须重新加入欧盟。这是规则里的。 #Eurovision2018 RT…

拧巴小姐 2025-01-09 04:58:33 1 0

使用 ElasticSearch 搜索文件名

我想使用 ElasticSearch 搜索文件名（而不是文件内容）。因此我需要找到文件名的一部分（完全匹配，没有模糊搜索）。示例：我的文件具有以下名称： …

七月上 2025-01-08 14:10:05 0 0

Trie（三元搜索树）的 J2ME 实现

我目前正在研究预测文本短信系统。我想使用 TST 数据结构和二元语法（根据当前按键序列 12 键盘预测下一个可能的单词）来实现它。目前我有一个语料库…

源来凯始玺欢你 2025-01-06 20:52:26 1 0

Solr ngram 与数字不匹配？

我正在使用标准 Solr ngram 字段定义 - 现在“item:ipad AND item:2”找到“iPad 2”，但“item_ngram:ipad AND item_ngram:2”却找不到。有什么想法…

清风疏影 2024-12-25 00:38:03 2 0

使用递归 N-Gram 压缩文本

我只是想通过使用递归 2-Gram 存储将一大组文本分解为单个整数，直到只剩下一个值。 table pair { id first_parent_id (points to -> this.id) second…

心意如水 2024-12-24 19:59:42 2 0

使用 python 的一元语法

我正在尝试从文本文件生成一元语法。但仅显示给定文件第一行的二元组。我想显示文件中所有句子的一元语法。 import string; import sys; import token…

◇流星雨 2024-12-18 17:14:22 1 0

如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n-gram 的分离新闻算法。如何为大文件生成 n-gram：例如，对于包含“蜜蜂是蜜蜂中的蜜蜂”的文件。首先它必须选择…

倒数 2024-12-18 00:40:41 1 0

SOLR：NGramFilterFactory 的问题

我正在运行 SOLR 作为包含 40000 多个文档的 Intranet 的搜索引擎。我使用 copyField 指令将 title 和 keywords 字段复制到 content 字段并仅对其进行…

甚是思念 2024-12-10 05:24:43 4 0

如何高效存储大量ngram？

我从十六进制形式的二进制项目中提取 4 克，这意味着每个项目最多可以有 65535 克。我想将每个项目与其克数及其频率相关联，但我对如何存储所有内容…

死开点丶别碍眼 2024-12-09 14:16:15 4 0

NLP算法“填写”搜索词

我正在尝试编写一种算法（我假设该算法将依赖于自然语言处理技术）来“填写”搜索词列表。这种东西可能有一个我不知道的名字。这种问题叫什么，什么样…

乜一 2024-12-07 20:46:19 4 0

快速 n 元语法计算

我正在使用 NLTK 在语料库中搜索 n-gram，但在某些情况下需要很长时间。我注意到计算 n 元语法在其他软件包中并不是一个不常见的功能（显然 Haystack …

随风而去 2024-12-07 03:06:29 2 0

我使用 Java HashMap 越多，性能下降得越多 - 即使大小稳定

我想扫描大量文本并计算词频（n-gram 频率实际上对于那些熟悉 NLP/IR 的人来说）。我为此使用 Java HashMap。所以发生的事情是我逐行处理文本。对于每…

你穿错了嫁妆 2024-12-05 22:04:21 3 0

MySQL 中的 n 元语法计数

我正在构建一个包含大约 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档（大多数情况下是几页文本）。我想在整个数据库中进行各种 n 元语…

云雾 2024-12-05 21:21:01 3 0

对文本进行分类时自动将类别相互链接

我一直在从事一个项目，对大量短文本进行数据挖掘，并根据预先存在的大量类别名称列表对这些文本进行分类。为此，我必须弄清楚如何首先从数据中创建一…

她比我温柔 2024-11-30 02:39:29 4 0

共 3 页
1
2
3
下一页

友情链接

文江博客