是否有一种算法可以确定文本与主题的相关性?

发布于 2024-12-27 09:15:39 字数 74 浏览 1 评论 0原文

我想知道什么可以用来确定页面与游戏、电影等主题的相关性。

这方面是否有一些研究,或者是否只计算某些相关单词出现的次数?

I want to know what can be used to determine the relevance of a page for a theme like games, movies, etc.

Is there some research in this area or is there only counting how many times some relevant words appear?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

眼眸印温柔 2025-01-03 09:15:39

常见的选择是基于词袋(或 n 元语法袋)特征的监督文档分类,最好使用 tf-idf 加权。

流行的算法包括朴素贝叶斯和(线性)SVM。

对于这种方法,您需要带标签的训练数据,即用相关主题注释的文档。

例如,参见信息检索简介,第 13 章-15。

The common choice is supervised document classification on bag of words (or bag of n-grams) features, preferably with tf-idf weighting.

Popular algorithms include Naive Bayes and (linear) SVMs.

For this approach, you'll need labeled training data, i.e. documents annotated with relevant themes.

See, e.g., Introduction to Information Retrieval, chapters 13-15.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文