如何构建一个算法来根据关键字对 HTML 页面进行分类?
我正在尝试创建一种算法,根据在页面上找到的关键字设置与网页的某些相关性。 我现在正在这样做: 我设置了一些单词和它们的值:“movie”(10),“cin…
给定一个大的 URL 列表,将 URL 分组为模式或正则表达式的最佳数据挖掘方法是什么?
我有一个包含 100 万个 URL 的列表,我想将相似的 URL 聚集在一起。该过程的输出将是正则表达式或模式的列表。理想情况下,我想使用 Ruby 来导出数据…
如何选择其中没有其他 div 的 div 元素?
我正在使用 Java 和 Jsoup 来解析 HTML 页面,我想获取所有不包含其他 div 的 div 来打印它包含的文本。 但例如,如果一个 div 包含一个表,而该表包…
重建现在著名的 17 岁的基于马尔可夫链的信息检索算法“Apodora”
当我们都在百思不得其解时,一名 17 岁的加拿大男孩显然发现了一种信息检索算法,该算法: a)执行精度是当前广泛使用的向量空间模型的两倍 b)“相当…
在 Python 中使用 Whoosh 进行模糊字符串搜索
我在 MongoDB 中建立了一个大型银行数据库。我可以轻松地获取这些信息并用它快速创建索引。例如,我希望能够匹配银行名称“Eagle Bank &”密苏里州信…
Lucene 中的 Jaccard 相似度
我需要使用 Jaccard 相似度与 n 元语法来计算 Lucene 中查询和文档的相似度。由于 Jaccard 相似度是 IR 中非常常见的度量,我希望找到它的 Lucene 实…