返回介绍

5.8 为分类器瘦身

发布于 2024-01-30 22:34:09 字数 501 浏览 0 评论 0 收藏 0

每个特征的实际贡献是值得观察一下的。对于逻辑回归,我们通过已经掌握的系数(clf.coef_ )直接就能获知这个对特征的影响力。一个特征的系数越高,这个特征在决定帖子好坏过程中的作用也就越大。因此,负值系数告诉我们,对应特征的分值越高,将帖子分类为坏帖子的信号也越强:

我们看到LinkCount 和NumExclams 对总体分类决策的影响力最大。而NumImages 和AvgSentLen 却扮演了一个相对边缘的角色。总体来说特征重要性在直觉上很有道理,但让人感到惊奇的是,NumImages 基本上可以忽略。正常情况下,包含图像的答案,打分总是很高的。然而在现实中,答案中极少包含图像。所以它尽管在原则上是一个很有用的特征,但是太过稀疏了,没有什么价值。我们只需要把这个特征抛弃即可,最后仍然可以得到相同的分类效果。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文