当前位置：文江博客话题详情

statistics algorithm artificial-intelligence text-processing text-analysis

根据内容确定文本的优先级

发布于 2024-12-14 02:42:44 字数 125 浏览 3 评论 0原文

如果您有一个文本列表和一个对某些主题感兴趣的人，那么处理为给定人选择最相关文本的算法是什么？

我认为这是一个相当复杂的主题，作为答案，我希望有几个方向来研究文本分析、文本统计、人工智能等的各种方法。

谢谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

浅紫色的梦幻 2024-12-21 02:42:44

有很多算法可以完成这项任务。至少太多了，无法在这里一一列举。首先是一些出发点：

主题发现和推荐是两个截然不同的任务，尽管它们经常重叠。如果您拥有稳定的用户群，那么您可能无需进行任何主题发现即可提供非常好的推荐。
发现主题并为其分配名称也是两项不同的任务。这意味着通常能够更容易地判断出文本 A 和文本 B 共享相似的主题，而不是明确地陈述这个共同主题可能是什么。为主题命名最好由人类完成，例如让他们标记项目。

现在来看一些实际的例子。

TF-IDF 通常是一个很好的起点，但它也有严重的缺点。例如，它无法判断两个文本中的“car”和“truck”意味着这两个文本可能共享一个主题。
http://websom.hut.fi/websom/ 用于自动聚类数据的 Kohonen 地图。它学习主题，然后按主题组织文本。
http://de.wikipedia.org/wiki/Latent_Semantic_Analysis 将能够提升TF-IDF 通过检测不同单词之间的语义相似度。另请注意，这已获得专利，因此您可能无法使用它。
拥有了由用户或专家分配的一组主题，您还可以尝试几乎任何类型的机器学习方法（例如 SVM）将 TF-IDF 数据映射到主题。

回复收藏 0 原文

寂寞美少年 2024-12-21 02:42:44

作为一名搜索引擎工程师，我认为结合使用两种技术可以最好地解决这个问题。

技术1，搜索（TF-IDF或其他算法）

使用搜索为没有用户统计信息的内容创建基线模型。有很多技术，但我认为 Apache Lucene/Solr 代码库是迄今为止最先进的最成熟、最稳定。

技术2，基于用户的推荐系统（k-最近邻其他算法）

当您开始获取用户统计信息时，请使用它来增强文本分析系统使用的相关性模型。用于解决此类问题的快速增长的代码库是 Apache Mahout 项目。

回复收藏 0 原文

笑红尘 2024-12-21 02:42:44

查看集体智能编程，这是对这些方面的各种技术的非常好的概述。也非常具有可读性。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文