当前位置：文江博客话题详情

Python 机器学习

一个数据挖掘问题

发布于 2022-09-05 14:56:48 字数 427 浏览 9 评论 0

这是一个数据挖掘比赛，现在遇到些问题，想与各位探讨：题目这样的：

根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好，在特征工程处遇到了以下问题：
1、uid 是categoriy 类型需要one-hot 编码，但是种类有uid有一万多种，one-hot编码会有memoryError 错误
2、内容部分想进行分词处理，再用词袋进行特征提取，但还是量太大，特征太多
想问问各位高见

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

一萌ing 2022-09-12 14:56:49

uid只是主键，起到连接两张表的作用，并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理，这涉及nlp的一些操作，网路上蛮多trick的，建议往这方面去检索信息。
以上，谢谢

未央 2022-09-12 14:56:48

你可以把uid进行hash，这样降维效果会非常明显。
如果你不知道hash trick是什么的话，可以看看这个hashing trick或者feature hashing是什么

~没有更多了~

关于作者

雨的味道风的声音

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文