tf-idf

tf-idf

文章 0 浏览 2

如何从文本语料库中提取语义相关性

目标是评估大型文本语料库中术语之间的语义相关性,例如“警察”和“犯罪”应该比“警察”和“山地”具有更强的语义相关性,因为它们倾向于共同使用。…

时光病人 2024-11-09 11:58:12 0 0

Lucene 自定义数字字段评分

除了在文本内容字段上使用 tf-idf 相似性进行标准术语搜索之外,我还希望根据数字字段的“相似性”进行评分。这种相似性将取决于查询中的值和文档中的…

分分钟 2024-11-05 20:48:34 0 0

如何计算文档字段中特殊术语的频率?

我只是想知道Lucene如何做到这一点,从源代码中我知道它在使用IndexReader初始化搜索器时打开并加载段文件,但是有没有好心人告诉我Lucene如何计算文…

じ违心 2024-11-02 05:21:01 1 0

矩阵 TFIDF 的降维

我计算了 TFIdf(术语频率,逆文档频率),我发现在这一步之后,有必要使用 LSI、卡方检验等方法来减少我的矩阵的维数..., 我不知道我如何在java中实…

忘羡 2024-10-28 07:15:23 3 0

使用java程序计算余弦相似度

我在计算相似性度量来为我的最终项目开发搜索引擎时遇到问题。 我必须在java中使用tf idf + cosine相似度,但我不知道如何计算它。 供您参考,我有自…

写给空气的情书 2024-10-27 02:38:58 0 0

在 Lucene 中,我可以搜索一个索引但使用另一个索引中的 IDF 吗?

我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天的结果(数千个文档),我不想维护包含一百万个文档的巨型索引。 另一…

菊凝晚露 2024-10-21 01:20:37 1 0

Java API:下载并计算给定网页的 tf-idf

我是红外技术的新手。 我正在寻找一个基于 Java 的 API 或工具来执行以下操作。 下载给定的一组 URL 提取标记 删除停用词 执行词干分析 创建倒排索引 …

赠意 2024-10-17 10:28:13 3 0

多个文档的 IDF 如何不同?

我正在使用 LETOR 制作一个信息检索系统。他们使用特遣部队和以色列国防军。 我确信 TF 是依赖于查询的。但 IDF 应该是,但是: “请注意,IDF 是独立…

小耗子 2024-10-14 15:10:25 3 0

卢塞恩。如何构建术语-文档矩阵

我需要构建该矩阵,但我找不到计算每个单元格标准化 tf-idf 的方法。 我要执行的标准化是除 tf-idf 的余弦标准化(使用 DefaultSimilarity )每 1/sq…

煮酒 2024-10-13 03:58:04 4 0

哪些地方不宜使用 IDF?

在什么情况下逆文档频率在信息检索中没有用?…

北城挽邺 2024-10-12 15:46:32 2 0

比较文档中的文本频率与语料库中的频率

我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中出现的频率与它们在大型文档语料库中出现的频率进行比较。 这个想法是,诸如“if”…

↘紸啶 2024-10-06 12:17:57 3 0

如何返回结果文档中的字数来计算 TF

我面临的挑战是在非常有限的时间内用 PHP 创建一个基本的文本文件搜索引擎,几乎没有任何编程知识,这是一项艰巨的任务! 这是我们到目前为止所拥有的…

想你只要分分秒秒 2024-09-30 18:52:24 2 0

使用 R 进行文本检索

我一直在使用 R 的文本挖掘包,它确实是一个很棒的工具。我还没有找到检索支持,或者可能缺少一些功能。 如何使用R的文本挖掘包实现一个简单的VSM模型…

青衫儰鉨ミ守葔 2024-09-29 23:43:55 5 0

计算 Lucene 文档之间的相似度和质心

为了对从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心…

芸娘子的小脾气 2024-09-13 19:56:03 5 0

使用Sql计算TF-IDF

我的数据库中有一个表,其中包含自由文本字段列。 我想知道每个单词在所有行中出现的频率,或者甚至计算所有单词的 TF-IDF,其中我的文档是该字段每行…

眼眸里的快感 2024-09-12 18:43:21 4 0
更多

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文