文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
5.8 为分类器瘦身
每个特征的实际贡献是值得观察一下的。对于逻辑回归,我们通过已经掌握的系数(clf.coef_ )直接就能获知这个对特征的影响力。一个特征的系数越高,这个特征在决定帖子好坏过程中的作用也就越大。因此,负值系数告诉我们,对应特征的分值越高,将帖子分类为坏帖子的信号也越强:
我们看到LinkCount 和NumExclams 对总体分类决策的影响力最大。而NumImages 和AvgSentLen 却扮演了一个相对边缘的角色。总体来说特征重要性在直觉上很有道理,但让人感到惊奇的是,NumImages 基本上可以忽略。正常情况下,包含图像的答案,打分总是很高的。然而在现实中,答案中极少包含图像。所以它尽管在原则上是一个很有用的特征,但是太过稀疏了,没有什么价值。我们只需要把这个特征抛弃即可,最后仍然可以得到相同的分类效果。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论