一般几千万的那种数据 为啥经过大数据处理然后才到算法机器学习处理呢?
你这个问题有点模糊,机器学习就是大数据处理的一个环节。我猜你说的大数据处理是数据预处理。模型训练前要先进行数据清洗和特征工程。几千万的数据,必然包含大量的数据缺失、错误、重复,必须进行删除、填充等工作进行纠正。否者混乱的数据只能训练处混乱的模型。然后你要进行降维和特征提取,不然几千万的数据,计算量相当大,不先降维一般机器根本吃不消,不做特征提取效果也不会好。
可以看下《数据挖掘导论》那本书,先看前几章了解流程概念。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(2)
你这个问题有点模糊,机器学习就是大数据处理的一个环节。
我猜你说的大数据处理是数据预处理。
模型训练前要先进行数据清洗和特征工程。
几千万的数据,必然包含大量的数据缺失、错误、重复,必须进行删除、填充等工作进行纠正。否者混乱的数据只能训练处混乱的模型。
然后你要进行降维和特征提取,不然几千万的数据,计算量相当大,不先降维一般机器根本吃不消,不做特征提取效果也不会好。
可以看下《数据挖掘导论》那本书,先看前几章了解流程概念。