最简单的特征选择算法

发布于 2024-10-20 20:11:37 字数 268 浏览 3 评论 0原文

我正在尝试创建自己的简单特征选择算法。我要使用的数据集是 这里(非常著名的数据集)。有人可以指导我如何操作吗?

我计划为文本分类编写一个特征排名算法。这是针对电影评论的情感分析,将其分类为正面或负面。

所以我的问题是如何为文本数据集编写简单的特征选择。

I am trying to create my own and simple feature selection algorithm. The data set that I am going to work with is here (very famous data set). Can someone give me a pointer on how to do so?

I am planning to write a feature rank algorithm for a text classification. This is for a sentiment analysis of movie reviews, classifying them as either positive or negative.

So my question is on how to write a simple feature selection for a text data set.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

无声静候 2024-10-27 20:11:37

特征选择方法是一个大话题。您可以从以下内容开始:

  1. 卡方

  2. 互信息

  3. 术语频率

等。如果您有时间,请阅读本文:< a href="http://net.pku.edu.cn/~course/cs502/2003/031119/yang97comparative.pdf" rel="nofollow">文本分类中特征选择的比较研究 这将有所帮助你们很多。

实际的实现取决于您如何预处理数据。基本上它是保存计数的,无论是哈希表还是数据库。

Feature selection methods are a big topic. You can start with following:

  1. Chi square

  2. Mutual information

  3. Term frequency

etc. Read this paper if you have time: Comparative study on feature selection in text categorization this will help you lot.

The actual implementation depends on how you pre-process the data. Basically its keeping the counts, be it hash table or a database.

心作怪 2024-10-27 20:11:37

当您构建集成时,随机功能效果很好。这称为特征装袋。

Random features work well, when you are then building ensembles. It's known as feature bagging.

嘿嘿嘿 2024-10-27 20:11:37

这里有一个选项:使用逐点互信息。您的特征将是标记,并且应根据情感标签来衡量信息。请小心频繁使用的单词(停用词),因为在此类任务中它们实际上可能很有用。

Here's one option: Use pointwise mutual information. Your features will be tokens, and the information should be measured against the sentiment label. Be careful with frequent words (stop words), because in this type of task they may actually be useful.

双马尾 2024-10-27 20:11:37

我目前使用这种方法:

计算每个类别的数据平均值和方差。一个好的候选特征应该具有较小的方差,并且平均值应该与其他类的平均值不同。

目前只有< 50 个功能我手动选择。为了实现这一过程的自动化,我们可以计算所有类别中平均值的方差,并为那些具有较大方差的类别提供更高的优先级。然后,首先选择一个类内方差较小的那些。

当然,这并没有删除多余的功能。

I currently use this approach:

calculate mean value and variance of data for each class. A good feature candidate should have small variance and the mean value should be different from mean values of other classes.

Currently having only < 50 features I select them manually. For automation of this process one could calculate variances of average values among all classes and give the higher prioritization to those, having bigger variance. Then, select first those, having smaller variance within one class.

Of cause this doesn't removes redundant features.

兔姬 2024-10-27 20:11:37

特征选择方法分为第四组:
过滤器

  • 过滤器:使用统计测量进行特征选择
  • 包装器:与学习算法结合
  • 嵌入式:同时使用过滤器和包装器 混合
  • :使用过滤器或包装器添加不同的步骤

特征选择的最简单方法是过滤器方法,它相对于以下方面非常快:其他方法。

以下是其中的一些:

  1. 卡方
  2. 交叉熵
  3. 模糊熵 测量
  4. 基尼指数
  5. 信息增益
  6. 互信息
  7. 相对判别标准
  8. 术语强度

这是一篇文章,我也在文本分类中使用了混合方法进行特征选择。 在此处查看我的文章

Feature selection methods are divided into fourth groups:
Filter

  • Filter : Use statistical measures for feature selection
  • Wrapper : incorporates with a learning algorithm
  • Embedded : use both and filter and wrapper altogether
  • Hybrid : add different steps using filter or wrapper

The simplest way for feature selection is Filter approaches which are very fast with respect to other approaches.

Here are some of them:

  1. Chi-square
  2. Cross Entropy
  3. Fuzzy Entropy Measure
  4. Gini index
  5. Information Gain
  6. Mutual Information
  7. Relative Discrimination Criteria
  8. Term Strength

Here This is an article also i have used a hybrid method for feature selection in text categorization. Check My Article Here

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文