服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下
一组大数据量,很大,几万条不止。绝大部分服从正态分布,比如,基本围绕10(经验值而已,非期望值)左右分布,8.3,9.7,11.2,12.5这些值,我们说属于正常范围,但是少量数据(数量不确定)过大或过小,比如,78,67,1.2,3等等,甚至还有些100+的值,
有什么科学的办法能剔出这些过大或过小的垃圾数据?因为这些数据的存在会影响到报表的结果。
我分析了一下,有以下难点:
1.难以或者不能设定一个界限,比如15和5,说超过或小于界限外的全部剔出,这应该不是科学的方法/算法。
2.因为没有边界,所以就难以确定这些过大或过小值的占比,也就无从得到这组数据的期望值。
各位有什么办法没?
我想这更多是属于BI领域的问题,不知道BI产品有没有针对这种情况的现成的分析或计算方法。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(8)
不那么追求精确的话,可以参考盒图(boxplot)的做法,以Q1-1.5IQR为下界,以Q3+1.5IQR为上界。
其中Q1为下四分位数,Q3为上四分位数。
学习了!!!
看起来挺不错,我去看看再说咯
这属于数据标准化的问题(BI的第一步)
可以考虑 ‘基尼指数’的标准化方法。
试试小波变换。
难道没人能给点提示?
再补充下,MS SQL server 2005能解决也行
补充一下,手头没有那么专业的分析软件或工具,不知道用Excel能不能解决。