帮助组织我的数据来解决这个机器学习问题

发布于 2024-10-09 09:00:33 字数 690 浏览 8 评论 0原文

我想将推文分类为一组给定的类别，例如{'sports'、'entertainment'、'love'}等...

我的想法是采用最常用单词的术语频率来帮助我解决这个问题。例如，“爱”一词在爱类别中出现最频繁，但它也以“我喜欢这个游戏”和“我喜欢这部电影”的形式出现在体育和娱乐中。

为了解决这个问题，我设想了一个 3 轴图，其中 x 值是我的推文中使用的所有单词，y 值是类别，z 值是相对于以下内容的术语频率（或某种类型的分数）单词和类别。然后，我会将推文分解到图表上，然后将每个类别中的 z 值相加。总 z 值最高的类别很可能是正确的类别。我知道这很令人困惑，所以让我举个例子：

“观看”这个词在体育和娱乐中出现很多（“我正在观看比赛”和“我正在观看我最喜欢的节目”）...因此，我至少将其范围缩小到这两类。但“游戏”这个词在娱乐中并不经常出现，而“表演”在体育运动中并不经常出现。 “观看”+“游戏”的 Z 值在体育类别中最高，而“观看”+“表演”在娱乐类别中最高。

现在您已经了解了我的想法是如何运作的，我需要帮助组织这些数据，以便机器学习算法可以在我给它一个单词或一组单词时预测类别。我读过很多关于 SVM 的文章，我认为它们是正确的选择。我尝试了 libsvm，但我似乎无法想出一个好的输入集。此外，libsvm 不支持非数字值，这增加了复杂性。

有什么想法吗？我是否需要一个库，或者我应该自己编写决策代码？

谢谢大家，我知道这很长，抱歉。

原文

分享到QQ

分享到微博