tf-idf

tf-idf

文章 0 浏览 7

使用java程序计算余弦相似度

我在计算相似性度量来为我的最终项目开发搜索引擎时遇到问题。 我必须在java中使用tf idf + cosine相似度,但我不知道如何计算它。 供您参考,我有自…

写给空气的情书 2024-10-27 02:38:58 6 0

在 Lucene 中,我可以搜索一个索引但使用另一个索引中的 IDF 吗?

我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天的结果(数千个文档),我不想维护包含一百万个文档的巨型索引。 另一…

菊凝晚露 2024-10-21 01:20:37 12 0

Java API:下载并计算给定网页的 tf-idf

我是红外技术的新手。 我正在寻找一个基于 Java 的 API 或工具来执行以下操作。 下载给定的一组 URL 提取标记 删除停用词 执行词干分析 创建倒排索引 …

赠意 2024-10-17 10:28:13 15 0

多个文档的 IDF 如何不同?

我正在使用 LETOR 制作一个信息检索系统。他们使用特遣部队和以色列国防军。 我确信 TF 是依赖于查询的。但 IDF 应该是,但是: “请注意,IDF 是独立…

小耗子 2024-10-14 15:10:25 13 0

卢塞恩。如何构建术语-文档矩阵

我需要构建该矩阵,但我找不到计算每个单元格标准化 tf-idf 的方法。 我要执行的标准化是除 tf-idf 的余弦标准化(使用 DefaultSimilarity )每 1/sq…

煮酒 2024-10-13 03:58:04 9 0

哪些地方不宜使用 IDF?

在什么情况下逆文档频率在信息检索中没有用?…

北城挽邺 2024-10-12 15:46:32 10 0

比较文档中的文本频率与语料库中的频率

我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中出现的频率与它们在大型文档语料库中出现的频率进行比较。 这个想法是,诸如“if”…

↘紸啶 2024-10-06 12:17:57 17 0

如何返回结果文档中的字数来计算 TF

我面临的挑战是在非常有限的时间内用 PHP 创建一个基本的文本文件搜索引擎,几乎没有任何编程知识,这是一项艰巨的任务! 这是我们到目前为止所拥有的…

想你只要分分秒秒 2024-09-30 18:52:24 10 0

使用 R 进行文本检索

我一直在使用 R 的文本挖掘包,它确实是一个很棒的工具。我还没有找到检索支持,或者可能缺少一些功能。 如何使用R的文本挖掘包实现一个简单的VSM模型…

青衫儰鉨ミ守葔 2024-09-29 23:43:55 16 0

计算 Lucene 文档之间的相似度和质心

为了对从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心…

芸娘子的小脾气 2024-09-13 19:56:03 14 0

使用Sql计算TF-IDF

我的数据库中有一个表,其中包含自由文本字段列。 我想知道每个单词在所有行中出现的频率,或者甚至计算所有单词的 TF-IDF,其中我的文档是该字段每行…

眼眸里的快感 2024-09-12 18:43:21 13 0

从 lucene 索引查询中获取向量空间模型 (tf-idf)

我需要从 lucene 查询的结果中获取向量空间模型(带有 tf-idf 权重),但不知道该怎么做。看起来应该很简单,在这个阶段也许你们中的一个人可以给我指…

相思碎 2024-09-11 23:57:11 20 0

将文档添加到评分的 TF-IDF 集合中?

我有大量已计算 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以将 TF-IDF 分数添加到新文档中,而无需重新处理整个数据库…

千纸鹤 2024-09-11 04:11:18 14 0

不同长度向量的余弦相似度?

我正在尝试使用 TF-IDF 对文档进行分类。我已经计算了一些文档的 tf_idf ,但是现在当我尝试计算其中两个文档之间的余弦相似度时,我得到一条回溯: #…

缱倦旧时光 2024-09-06 17:58:08 14 0

Ngram IDF 平滑

我正在尝试使用 IDF 分数在我相当庞大的文档语料库中查找有趣的短语。 我基本上需要像亚马逊的统计上不可能的短语这样的东西,即将文档与所有其他文档…

庆幸我还是我 2024-09-05 13:04:00 17 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文