服从正态分布的大数据量，如何科学剔出其中垃圾数据，大家一起研究下

发布于 2022-08-20 02:08:48 字数 404 浏览 11 评论 8

一组大数据量，很大，几万条不止。绝大部分服从正态分布，比如，基本围绕10（经验值而已，非期望值）左右分布，8.3，9.7，11.2，12.5这些值，我们说属于正常范围，但是少量数据（数量不确定）过大或过小，比如，78，67，1.2,3等等，甚至还有些100+的值，

有什么科学的办法能剔出这些过大或过小的垃圾数据？因为这些数据的存在会影响到报表的结果。
我分析了一下，有以下难点：

1.难以或者不能设定一个界限，比如15和5，说超过或小于界限外的全部剔出，这应该不是科学的方法/算法。
2.因为没有边界，所以就难以确定这些过大或过小值的占比，也就无从得到这组数据的期望值。

各位有什么办法没？
我想这更多是属于BI领域的问题，不知道BI产品有没有针对这种情况的现成的分析或计算方法。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

記柔刀 2022-09-02 15:30:06

不那么追求精确的话，可以参考盒图(boxplot)的做法，以Q1-1.5IQR为下界，以Q3+1.5IQR为上界。
其中Q1为下四分位数，Q3为上四分位数。

回复收藏 0

北陌 2022-09-02 15:30:06

学习了！！！

回复收藏 0

固执像三岁 2022-09-02 15:29:43

看起来挺不错，我去看看再说咯

回复收藏 0

浅紫色的梦幻 2022-09-02 15:29:12

这属于数据标准化的问题（BI的第一步）

可以考虑 ‘基尼指数’的标准化方法。

回复收藏 0

洋洋洒洒 2022-09-02 14:51:47

试试小波变换。

回复收藏 0

梦醒时光 2022-09-02 13:40:23

难道没人能给点提示？

回复收藏 0

夏雨凉 2022-09-02 04:36:52

再补充下，MS SQL server 2005能解决也行

回复收藏 0

谈下烟灰 2022-08-23 05:11:36

补充一下,手头没有那么专业的分析软件或工具，不知道用Excel能不能解决。

回复收藏 0

~没有更多了~

关于作者

爱的十字路口

暂无简介

0 文章

0 评论

23 人气

关注发私信

qq_z5gHLI

文章 0 评论 0

关注

圈圈圆圆圈圈

文章 0 评论 0

关注

alipaysp_h2Vbo4sv6k

文章 0 评论 0

关注

初见你

文章 0 评论 0

关注

清风无影

文章 0 评论 0

关注

云胡

文章 0 评论 0

友情链接

文江博客

服从正态分布的大数据量，如何科学剔出其中垃圾数据，大家一起研究下

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签