当前位置：文江博客话题详情

基于关键字的最近邻算法或库

发布于 2024-11-07 03:39:55 字数 193 浏览 6 评论 0原文

我想找到一个库或算法（所以我自己编写代码）来识别网页的最近 k 个邻居，其中网页被定义为一组关键字。我已经完成了提取关键字的部分。

它不必非常好，只要足够好即可。

任何人都可以建议解决方案，或者从哪里开始。我过去曾浏览过 Yury Lifshits 的讲座，但如果可能的话，我希望能得到一些现成的东西。

首选 Java 库。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

久隐师 2024-11-14 03:39:55

正如您所说，您已经从页面中提取了关键字。我假设您用单词向量表示每个文档/页面。类似于文档术语频率矩阵。

我想页面的最近邻居理想情况下是具有相似内容的页面。因此，您希望找到每个单词的相对频率与您要搜索的单词相似的文档。所以首先对doc-term矩阵WRT每行进行归一化；即用%tage 出现次数替换出现次数。

接下来，您必须在由这些向量表示的两个文档之间分配一些距离。您可以使用正常的欧几里得距离或曼哈顿距离。然而，对于文本文档，通常效果最好的相似性度量是余弦相似度。使用适合您的问题的任何距离或相似度函数（请记住，对于最近邻，您希望最小化距离；但最大化相似度）。

一旦你有了向量和距离函数，运行最近邻或K-最近邻算法。

回复收藏 0 原文

~没有更多了~

关于作者

·深蓝

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

基于关键字的最近邻算法或库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

基于关键字的最近邻算法或库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。