一个数据挖掘问题

发布于 2022-09-05 14:56:48 字数 427 浏览 9 评论 0

这是一个数据挖掘比赛,现在遇到些问题,想与各位探讨:题目这样的:
clipboard.png
根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好,在特征工程处遇到了以下问题:
1、uid 是categoriy 类型需要one-hot 编码,但是种类有uid有一万多种,one-hot编码会有memoryError 错误
2、内容部分想进行分词处理,再用词袋进行特征提取,但还是量太大,特征太多
想问问各位高见

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

一萌ing 2022-09-12 14:56:49

uid只是主键,起到连接两张表的作用,并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理,这涉及nlp的一些操作,网路上蛮多trick的,建议往这方面去检索信息。
以上,谢谢

未央 2022-09-12 14:56:48

你可以把uid进行hash,这样降维效果会非常明显。
如果你不知道hash trick是什么的话,可以看看这个hashing trick或者feature hashing是什么

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文