information-retrieval

information-retrieval

文章 0 浏览 7

Python:列表/集合的交集

def boolean_search_and(self, text): results = [] and_tokens = self.tokenize(text) tokencount = len(and_tokens) term1 = and_tokens[0] print …

情绪失控 2024-09-19 01:55:29 13 0

Python:存储与字典中的键关联的列表值

我知道 python 字典如何存储键:值元组。在我正在进行的项目中,我需要存储与列表值关联的键。 前任: 键-> [0,2,4,5,8] 在哪里, key 是文本文件中的…

澜川若宁 2024-09-18 23:13:38 14 0

维基百科:跨多种语言的页面

我想在我的项目中使用维基百科转储。我的项目需要以下信息。 对于维基百科条目,我想知道该页面包含哪种其他语言? 我想要 csv 或其他常见格式的可下…

冷︶言冷语的世界 2024-09-18 19:59:42 16 0

存储倒排索引

我正在从事一个关于信息检索的项目。 我使用 Hadoop/Python 制作了完整倒排索引。 Hadoop 将索引输出为写入文件的 (word,documentlist) 对。 为了快速…

梦途 2024-09-18 19:51:14 16 0

HTML\PHP - 如何获取用户(访客)的信息

当用户访问您的网站时,如何获取用户的信息? IP 地址 Mac 地址 用户配置文件名称 操作系统名称 操作系统版本 注册到(名称/公司)的 操作系统 计算机…

流云如水 2024-09-17 12:49:04 14 0

信息检索 (IR)、数据挖掘、机器学习 (ML)

人们经常使用 IR、ML 和数据挖掘这些术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间到底有什么区别?…

若水微香 2024-09-13 18:58:44 16 0

在大型数据库中搜索(非常)近似的子字符串

我正在尝试在大型数据库中搜索长的近似子字符串。例如,查询可能是 1000 个字符的子字符串,该子字符串可能与匹配项的编辑距离相差数百个编辑。我听说…

是你 2024-09-13 07:41:07 13 0

向量的余弦相似度,< O(n^2) 复杂度

浏览此网站是否有类似问题,我发现: http://math.nist.gov/javanumerics /jama/ 和这个: http ://sujitpal.blogspot.com/2008/09/ir-math-with-java…

舟遥客 2024-09-11 11:17:47 16 0

关于结构 tcp_info 的良好文档

Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找书籍、工具、软件库…

愁以何悠 2024-09-11 10:38:47 13 0

Shingleprinting在实践中如何运作?

我正在尝试使用 shingleprinting 来测量文档相似性。该过程涉及以下步骤: 创建一个 5-shingling 两个文档 D1、D2 用 64 位散列对每个 shingle 进行散…

任性一次 2024-09-08 22:53:54 18 0

如何检索我的 Google 搜索历史记录?

在 Google 网络历史记录界面中,我可以看到我多年来使用过的所有搜索查询,以及我针对特定查询访问的页面。有没有办法使用计算机程序检索此历史记录?…

橘虞初梦 2024-09-07 10:22:14 15 0

Ngram IDF 平滑

我正在尝试使用 IDF 分数在我相当庞大的文档语料库中查找有趣的短语。 我基本上需要像亚马逊的统计上不可能的短语这样的东西,即将文档与所有其他文档…

庆幸我还是我 2024-09-05 13:04:00 17 0

编写一个程序来抓取论坛

我需要编写一个程序来抓取论坛。 我应该使用 Scrapy 框架用 Python 编写程序还是应该使用 Php cURL? 还有与 Scrapy 相当的 Php 吗? 谢谢…

亚希 2024-09-04 13:03:28 17 0

创建数据集:从文本文档中提取特征(TF-IDF)

我必须从一些文本文件创建一个数据集,将它们写为特征向量。 像这样: doc1: 1,0.45 6,0.001 94,0.1 ... doc2: 3,0.5 98,0.2 ... ... 向量的每个位置…

剧终人散尽 2024-09-03 08:24:04 19 0

从树的节点获取信息

我正在使用树数据结构,并试图想出一种方法来计算可以从树的节点获得的信息。 我想知道是否有任何现有技术可以为在较低级别(距树根的距离)出现频率…

把时间冻结 2024-09-02 08:11:29 12 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文