当前位置：文江博客话题详情

最简单的特征选择算法

发布于 2024-10-20 20:11:37 字数 268 浏览 11 评论 0原文

我正在尝试创建自己的简单特征选择算法。我要使用的数据集是这里（非常著名的数据集）。有人可以指导我如何操作吗？

我计划为文本分类编写一个特征排名算法。这是针对电影评论的情感分析，将其分类为正面或负面。

所以我的问题是如何为文本数据集编写简单的特征选择。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无声静候 2024-10-27 20:11:37

特征选择方法是一个大话题。您可以从以下内容开始：

卡方
互信息
术语频率

等。如果您有时间，请阅读本文：< a href="http://net.pku.edu.cn/~course/cs502/2003/031119/yang97comparative.pdf" rel="nofollow">文本分类中特征选择的比较研究这将有所帮助你们很多。

实际的实现取决于您如何预处理数据。基本上它是保存计数的，无论是哈希表还是数据库。

回复收藏 0 原文

心作怪 2024-10-27 20:11:37

当您构建集成时，随机功能效果很好。这称为特征装袋。

回复收藏 0 原文

嘿嘿嘿 2024-10-27 20:11:37

这里有一个选项：使用逐点互信息。您的特征将是标记，并且应根据情感标签来衡量信息。请小心频繁使用的单词（停用词），因为在此类任务中它们实际上可能很有用。

回复收藏 0 原文

双马尾 2024-10-27 20:11:37

我目前使用这种方法：

计算每个类别的数据平均值和方差。一个好的候选特征应该具有较小的方差，并且平均值应该与其他类的平均值不同。

目前只有< 50 个功能我手动选择。为了实现这一过程的自动化，我们可以计算所有类别中平均值的方差，并为那些具有较大方差的类别提供更高的优先级。然后，首先选择一个类内方差较小的那些。

当然，这并没有删除多余的功能。

回复收藏 0 原文

兔姬 2024-10-27 20:11:37

特征选择方法分为第四组：
过滤器

过滤器：使用统计测量进行特征选择
包装器：与学习算法结合
嵌入式：同时使用过滤器和包装器混合
：使用过滤器或包装器添加不同的步骤

特征选择的最简单方法是过滤器方法，它相对于以下方面非常快：其他方法。

以下是其中的一些：

卡方
交叉熵
模糊熵测量
基尼指数
信息增益
互信息
相对判别标准
术语强度

这是一篇文章，我也在文本分类中使用了混合方法进行特征选择。在此处查看我的文章

回复收藏 0 原文

~没有更多了~

关于作者

煮酒

暂无简介

文章

27 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

最简单的特征选择算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签