Lucene 中的 Jaccard 相似度
我需要使用 Jaccard 相似度与 n 元语法来计算 Lucene 中查询和文档的相似度。由于 Jaccard 相似度是 IR 中非常常见的度量,我希望找到它的 Lucene 实…
为什么两个向量之间的余弦相似度可以为负?
我有 2 个 11 维向量。 a <- c(-0.012813841, -0.024518383, -0.002765056, 0.079496744, 0.063928973, 0.476156960, 0.122111977, 0.322930189, 0.40…
如何获得成对的“序列相似性评分”约 1000 种蛋白质?
我有大量 fasta 格式的蛋白质序列。 我想获得每对蛋白质的成对序列相似性得分。 R 中的任何包都可以用于获取蛋白质序列的blast 相似性评分吗?…
R:搜索字符串SIMILAR并返回条件符号
我的 df 有以下条目: A xxx xxx xxx1 xx1x yyyy gggg 我想根据 A 列的相似性,基于以下条件,将符号添加到我的 df 的 B 列。 我将阈值设置为 = 或 > …
判断一个企业名称是否与另一个企业名称非常相似 - Python
我正在处理一个大型企业数据库。 我希望能够比较两个公司名称的相似性,看看它们是否可能重复。 以下是应测试重复概率很高的企业名称列表,有什么好的…
比较阵列之间的距离?
如何比较两个数组的相似度?假设我有: Base Array: [.5,0,0,0,.25,0,0,.25,0,0,0,0] Array 1: [1,0,0,0,1,0,0,1,0,0,0,0] Array 2: [0,0,1,0,0,0,1,0…
类似 simhash 的算法来比较两个文本文档
问题是: 我有一组文本文档,我想挑选与输入文档最相似的一个。 输入的文本文档可以完全匹配或部分修改。 该算法必须非常快。 目前,我发现 simhash …
Wordnet Synset 偏移量?如何比较单词
我使用的是中央研究院的中文Wordnet。它是Wordnet 1.6 的翻译。不幸的是它不是免费提供的,必须购买,并且手册基本上说参考Wordnet的手册。我想弄清楚…