使用 java hashmap 进行 n 元模型建模
我需要对 n 元语法(n 个单词的序列)及其上下文(出现在 n 元语法附近的单词及其频率)的集合进行建模。我的想法是这样的: public class Ngram { pr…
在 Python 中计算 n-gram 的逐点互信息 (PMI) 分数
我有一个很大的 n-gram 语料库和几个外部 n-gram。我想根据这个语料库(计数)计算每个外部 n-gram 的 PMI 分数。 有没有任何工具可以做到这一点,或…
安卓&模糊匹配、n-gram 和 Levenshtein 距离
我正在构建一个 Android 应用程序,它接受字符串输入并使用 Google API 返回书籍的排名列表。 我正在寻找一种方法来将用户输入的开放式字符串与列表中…
通过 shingles 和 termvector 组件自动完成
实现类似 Google 的自动完成功能的方法之一是将 shingles 和 Solr 1.4 中的 termvector 组件结合起来。 首先,我们使用 shingles 组件生成所有 n 元分…
使用马尔可夫模型将全大写转换为混合大小写及相关问题
我一直在考虑使用马尔可夫技术来恢复自然语言文本中丢失的信息。 将全部大写文本恢复为大小写混合。 将重音符号/变音符号恢复为应有但已转换为纯 ASCI…
接近 MySQL 中的串行文本文件读取性能
我正在尝试在 python 中执行一些 n-gram 计数,我想我可以使用 MySQL(MySQLdb 模块)来组织我的文本数据。 我有一个相当大的表,大约有 1000 万条记…
考虑 QWERTY 键盘布局检测随机键盘敲击
最近维基百科破坏行为检测竞赛的获胜者表示,可以通过“检测随机键盘”来改进检测考虑 QWERTY 的点击率 键盘布局”。 示例:woijf qoeoifwjf oiiwjf o…
从句子生成 N 元语法
如何生成字符串的 n 元语法,例如: String Input="This is my car." 我想使用此输入生成 n 元语法: Input Ngram size = 3 输出应该是: This is my …
Perl 段落 n 元语法
假设我有一个文本句子: $body = 'the quick brown fox jumps over the lazy dog' 我想将该句子放入“关键字”的哈希值中,但我想允许使用多单词关键…
SOLR 中的 EdgeNGramTokenizerFactory EdgeNGramFilterFactory 有什么区别?
这两种过滤器有什么区别? 它们的效果好像是一样的? 谁能提供一个例子来说明如何将它们应用于某些文本?…
Drupal 的搜索模块可以搜索子字符串吗? (部分搜索)
Drupal的核心搜索模块,仅搜索关键字,例如“三明治”。我可以让它使用子字符串(例如“sandw”)进行搜索并返回我的三明治结果吗? 也许有一个插件可…
- 共 1 页
- 1