是否有一种算法可以确定文本与主题的相关性?
我想知道什么可以用来确定页面与游戏、电影等主题的相关性。
这方面是否有一些研究,或者是否只计算某些相关单词出现的次数?
I want to know what can be used to determine the relevance of a page for a theme like games, movies, etc.
Is there some research in this area or is there only counting how many times some relevant words appear?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
常见的选择是基于词袋(或 n 元语法袋)特征的监督文档分类,最好使用 tf-idf 加权。
流行的算法包括朴素贝叶斯和(线性)SVM。
对于这种方法,您需要带标签的训练数据,即用相关主题注释的文档。
例如,参见信息检索简介,第 13 章-15。
The common choice is supervised document classification on bag of words (or bag of n-grams) features, preferably with tf-idf weighting.
Popular algorithms include Naive Bayes and (linear) SVMs.
For this approach, you'll need labeled training data, i.e. documents annotated with relevant themes.
See, e.g., Introduction to Information Retrieval, chapters 13-15.