information-retrieval

information-retrieval

文章 0 浏览 5

最小编辑距离快速估计

我们有基于 Levenshtein 距离 的拼写检查器实现。由于我们无法计算所有可能替换的距离(在 O(n^2) 中计算的两个字符串之间的编辑距离),我们使用 K-g…

蛮可爱 12-12 07:54 2 0

Java中的搜索引擎算法?

好吧,我对这个网站真的很陌生,我想这才 2 个小时,所以我需要一段时间才能习惯这个网站并提出不违反指南的问题。 我想做的就是实现一个小型搜索引擎…

忘羡 12-11 13:47 3 0

在 Lucene 中使用 XML 字段进行邻近搜索

我有一个如下所示的文档语料库: text sample text text words lipsum words words text some other text 我希望能够搜索注释中一定数量的标记中出现…

月寒剑心 12-09 07:45 3 0

使用 Lucene 进行个性化搜索

我想询问有关个性化搜索的问题。我即将使用 Lucene 设计/实现个性化搜索。我对此做了一些谷歌搜索,但似乎没有找到可以与 Lucene 一起使用的模块/工具…

川水往事 12-08 21:02 6 0

用于查找给定文档的词频的 Python 脚本

我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能通过使用便携式词干分析器)。 是否有任何库或简单的脚本可以执行此过程?…

飘落散花 12-05 08:10 3 0

搜索关键词排名

问题是:如何根据搜索时间和次数对我的 Web 应用程序中的搜索查询中使用的关键字进行排名? 用户在文本框中键入他的搜索查询。通过 AJAX 我需要向用户…

诺曦 12-04 11:56 8 0

用于在网站上查找联系方式的脚本或库

有谁知道脚本/食谱/库可以在网站上查找最相关的联系信息? 一些可能的情况: 在个人网页上查找联系电话号码 在博客上查找所有者电子邮件地址 查找联系…

冰雪梦之恋 12-03 01:54 3 0

如何构建一个算法来根据关键字对 HTML 页面进行分类?

我正在尝试创建一种算法,根据在页面上找到的关键字设置与网页的某些相关性。 我现在正在这样做: 我设置了一些单词和它们的值:“movie”(10),“cin…

沫雨熙 12-02 14:08 4 0

给定一个大的 URL 列表,将 URL 分组为模式或正则表达式的最佳数据挖掘方法是什么?

我有一个包含 100 万个 URL 的列表,我想将相似的 URL 聚集在一起。该过程的输出将是正则表达式或模式的列表。理想情况下,我想使用 Ruby 来导出数据…

无需解释 12-01 09:43 4 0

有没有可以让我按图像搜索的 API?

我有一张图片,我想搜索看看它是什么。有可用的 API 吗?…

戏剧牡丹亭 11-30 03:49 3 0

如何选择其中没有其他 div 的 div 元素?

我正在使用 Java 和 Jsoup 来解析 HTML 页面,我想获取所有不包含其他 div 的 div 来打印它包含的文本。 但例如,如果一个 div 包含一个表,而该表包…

全文个性化搜索产品

有哪些全文搜索技术可以支持全文个性化搜索? 例如,您选择的网络邮件提供商中的联系人搜索:它是全文,但仅搜索您的个人联系人,而不是整个联系人。 …

梦亿 11-28 22:12 4 0

如何从 HTML 页面中仅提取主要文本内容?

更新 Boilerpipe 似乎工作得很好,但我意识到我不需要只主要内容,因为许多页面没有文章,而只需要对整个文本进行一些简短描述的链接(这在新闻门户中…

吐个泡泡 11-28 21:58 3 0

重建现在著名的 17 岁的基于马尔可夫链的信息检索算法“Apodora”

当我们都在百思不得其解时,一名 17 岁的加拿大男孩显然发现了一种信息检索算法,该算法: a)执行精度是当前广泛使用的向量空间模型的两倍 b)“相当…

凯凯我们等你回来 11-28 06:19 4 0

查询词消除

在布尔检索模型中,查询由使用不同运算符组合在一起的术语组成。乍一看,连接是最明显的选择,但是当查询长度增长时,糟糕的事情就会发生。使用合取时…

ぶ宁プ宁ぶ 11-27 00:35 3 0
更多

推荐作者

千笙结

文章 0 评论 0

天生の放荡

文章 0 评论 0

夢野间

文章 0 评论 0

qq_fNfccJ

文章 0 评论 0

池予

文章 0 评论 0

三生一梦

文章 0 评论 0

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文