一个数据挖掘问题
这是一个数据挖掘比赛,现在遇到些问题,想与各位探讨:题目这样的:
根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好,在特征工程处遇到了以下问题:
1、uid 是categoriy 类型需要one-hot 编码,但是种类有uid有一万多种,one-hot编码会有memoryError 错误
2、内容部分想进行分词处理,再用词袋进行特征提取,但还是量太大,特征太多
想问问各位高见
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
![扫码二维码加入Web技术交流群](/public/img/jiaqun_03.jpg)
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
uid只是主键,起到连接两张表的作用,并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理,这涉及nlp的一些操作,网路上蛮多trick的,建议往这方面去检索信息。
以上,谢谢
你可以把uid进行hash,这样降维效果会非常明显。
如果你不知道hash trick是什么的话,可以看看这个hashing trick或者feature hashing是什么