服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下

发布于 2022-08-20 02:08:48 字数 404 浏览 11 评论 8

一组大数据量,很大,几万条不止。绝大部分服从正态分布,比如,基本围绕10(经验值而已,非期望值)左右分布,8.3,9.7,11.2,12.5这些值,我们说属于正常范围,但是少量数据(数量不确定)过大或过小,比如,78,67,1.2,3等等,甚至还有些100+的值,

有什么科学的办法能剔出这些过大或过小的垃圾数据?因为这些数据的存在会影响到报表的结果。
我分析了一下,有以下难点:

1.难以或者不能设定一个界限,比如15和5,说超过或小于界限外的全部剔出,这应该不是科学的方法/算法。
2.因为没有边界,所以就难以确定这些过大或过小值的占比,也就无从得到这组数据的期望值。

各位有什么办法没?
我想这更多是属于BI领域的问题,不知道BI产品有没有针对这种情况的现成的分析或计算方法。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(8

記柔刀 2022-09-02 15:30:06

不那么追求精确的话,可以参考盒图(boxplot)的做法,以Q1-1.5IQR为下界,以Q3+1.5IQR为上界。
其中Q1为下四分位数,Q3为上四分位数。

北陌 2022-09-02 15:30:06

学习了!!!

固执像三岁 2022-09-02 15:29:43

看起来挺不错,我去看看再说咯

浅紫色的梦幻 2022-09-02 15:29:12

这属于数据标准化的问题(BI的第一步)

可以考虑 ‘基尼指数’的标准化方法。

洋洋洒洒 2022-09-02 14:51:47

试试小波变换。

梦醒时光 2022-09-02 13:40:23

难道没人能给点提示?

夏雨凉 2022-09-02 04:36:52

再补充下,MS SQL server 2005能解决也行

谈下烟灰 2022-08-23 05:11:36

补充一下,手头没有那么专业的分析软件或工具,不知道用Excel能不能解决。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文