tf-idf

tf-idf

文章 0 浏览 2

从 lucene 索引查询中获取向量空间模型 (tf-idf)

我需要从 lucene 查询的结果中获取向量空间模型(带有 tf-idf 权重),但不知道该怎么做。看起来应该很简单,在这个阶段也许你们中的一个人可以给我指…

相思碎 2024-09-11 23:57:11 6 0

将文档添加到评分的 TF-IDF 集合中?

我有大量已计算 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以将 TF-IDF 分数添加到新文档中,而无需重新处理整个数据库…

千纸鹤 2024-09-11 04:11:18 4 0

不同长度向量的余弦相似度?

我正在尝试使用 TF-IDF 对文档进行分类。我已经计算了一些文档的 tf_idf ,但是现在当我尝试计算其中两个文档之间的余弦相似度时,我得到一条回溯: #…

缱倦旧时光 2024-09-06 17:58:08 5 0

Ngram IDF 平滑

我正在尝试使用 IDF 分数在我相当庞大的文档语料库中查找有趣的短语。 我基本上需要像亚马逊的统计上不可能的短语这样的东西,即将文档与所有其他文档…

庆幸我还是我 2024-09-05 13:04:00 7 0

创建数据集:从文本文档中提取特征(TF-IDF)

我必须从一些文本文件创建一个数据集,将它们写为特征向量。 像这样: doc1: 1,0.45 6,0.001 94,0.1 ... doc2: 3,0.5 98,0.2 ... ... 向量的每个位置…

剧终人散尽 2024-09-03 08:24:04 7 0

关于余弦相似度

我发现文档之间的余弦相似度..我这样做 D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 D2 的 tf-idf 分数=(7,0,0,1) cos(theta) = (56 + 0 + 0 +…

简单爱 2024-09-02 00:58:00 9 0

余弦相似度问题

我已经计算了文档 1 和文档 2 的术语的 tf-idf 值。现在我不知道如何使用这些 tf-idf 值...基本上我想找到两个文档之间的相似性(在我的例子中是网页…

聆听风音 2024-09-01 09:24:11 8 0

Lucene numDocs 和 doqFreq 自定义相似度类

我正在使用 Lucene 进行应用程序(我是一个菜鸟),并且面临一些问题。 我的应用程序使用 Lucene 2.4.0 库和自定义相似实现(jar 已导入) 在我的应用…

彻夜缠绵 2024-08-27 21:54:33 5 0

tf-idf:我理解对吗?

我对进行一些文档聚类感兴趣,现在我正在考虑使用 TF-IDF 来实现此目的。 如果我没记错的话,TF-IDF 特别用于评估文档给定查询的相关性。如果我没有特…

老街孤人 2024-08-26 22:12:48 6 0

tf-idf 和以前未见过的术语

TF-IDF(术语频率 - 逆文档频率) 是信息检索的主要内容。 但这不是一个合适的模型,当新术语引入语料库时,它似乎就会崩溃。 当查询或新文档有新术语…

一萌ing 2024-07-07 06:40:48 9 0
更多

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文