n-gram

n-gram

文章 0 浏览 3

接近 MySQL 中的串行文本文件读取性能

我正在尝试在 python 中执行一些 n-gram 计数,我想我可以使用 MySQL(MySQLdb 模块)来组织我的文本数据。 我有一个相当大的表,大约有 1000 万条记…

伴梦长久 2024-10-06 16:56:14 7 0

使用余弦相似度测量的 n 元句子相似度

我一直在从事一个关于句子相似性的项目。我知道它已经被问过很多次了,但我只是想知道我的问题是否可以通过我正在做的方式使用的方法来完成,或者我应…

久夏青 2024-09-29 05:24:39 7 0

考虑 QWERTY 键盘布局检测随机键盘敲击

最近维基百科破坏行为检测竞赛的获胜者表示,可以通过“检测随机键盘”来改进检测考虑 QWERTY 的点击率 键盘布局”。 示例:woijf qoeoifwjf oiiwjf o…

风尘浪孓 2024-09-25 05:05:02 6 0

从句子生成 N 元语法

如何生成字符串的 n 元语法,例如: String Input="This is my car." 我想使用此输入生成 n 元语法: Input Ngram size = 3 输出应该是: This is my …

ヅ她的身影、若隐若现 2024-09-18 17:26:25 11 0

在 Perl 中从字符串中提取 n 元语法作为单词

除了 Text::Ngrams 之外,是否还有模块或 Perl 代码可以从字符串中提取 n 元词?…

橘寄 2024-09-16 22:00:22 6 0

Perl 段落 n 元语法

假设我有一个文本句子: $body = 'the quick brown fox jumps over the lazy dog'; 我想将该句子放入“关键字”的哈希值中,但我想允许使用多单词关键…

桃酥萝莉 2024-09-15 08:21:40 10 0

SOLR 中的 EdgeNGramTokenizerFactory EdgeNGramFilterFactory 有什么区别?

这两种过滤器有什么区别? 它们的效果好像是一样的? 谁能提供一个例子来说明如何将它们应用于某些文本?…

三生殊途 2024-09-06 12:50:56 6 0

用于字符串相似度比较的 N 元语法分割函数

作为更好地理解我目前正在学习的 F# 的练习的一部分,我编写了函数 将给定字符串拆分为 n 元语法。 1)我想收到有关我的功能的反馈:可以以更简单或…

绮烟 2024-09-03 13:02:58 7 0

Drupal 的搜索模块可以搜索子字符串吗? (部分搜索)

Drupal的核心搜索模块,仅搜索关键字,例如“三明治”。我可以让它使用子字符串(例如“sandw”)进行搜索并返回我的三明治结果吗? 也许有一个插件可…

浅忆流年 2024-08-29 07:52:41 12 0

概率转移矩阵

我正在研究马尔可夫链,我想知道在给定文本文件作为输入的情况下构造概率转移矩阵(n 阶)的有效算法。 我并不追求一种算法,但我宁愿建立一个此类算…

执手闯天涯 2024-08-14 17:10:21 3 0

需要推荐:Rails、Postgres 和模糊全文搜索

我有带有 Postgres 后端的 Rails 应用程序。 我需要添加全文搜索,这将允许基于编辑距离或其他类似指标的模糊搜索。添加词法分析器/词干分析器必须处…

柳若烟 2024-08-14 05:07:43 10 0

如何在MATLAB中实现频谱核函数?

频谱核函数通过计算两个字符串之间相同的 n 元语法来对字符串进行操作。 例如,“tool”具有三个 2-gram(“to”、“oo”和“ol”),“tool”和“foo…

來不及說愛妳 2024-07-29 04:30:56 8 0

N 元语法:解释 + 2 个应用程序

我想用 n-gram 实现一些应用程序(最好是在 PHP 中)。 哪种类型的 n 元语法更适合大多数用途? 单词级还是字符级 n-gram? 如何在 PHP 中实现 n-gram…

病女 2024-07-25 10:35:44 9 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文