您好、欢迎来到现金彩票网!
当前位置:国民彩票app下载 > 高斯分布 >

如果数据分布是非正态的怎么办?用切比雪夫不等式呀!

发布时间:2019-04-24 23:08 来源:未知 编辑:admin

  上图是万圣节的一周,在捣蛋和给糖之间,数据极客们在社交媒体上为这个可爱的网红词汇而窃窃私语。

  你觉得这是个玩笑?让我告诉你,这不是笑料。这是吓人的,真正的万圣节精神!

  如果我们无法假设我们的大部分数据(商业、社会、经济或科学根源) 至少近似“正态”(即它们是由一个高斯过程或多个这样的过程的总和产生的),那么我们就完蛋了!

  正态分布(高斯分布)是最广为人知的概率分布。在数据科学的圈里,数据科学家非常喜欢这个分布。

  一方面是因为,符合这个分布的现象在自然界随处可见。在概率统计方面,中心极限定理撑起了一片天,而中心极限定理的最重要的一个假设是数据的分布符合中心极限定理。

  问题是通常是,你可能会找到特定的数据集分布,这些分布可能不满足正态性,即正态分布的性质。但由于过度依赖于常态假设,大多数业务分析框架都是为处理正态分布数据集而量身定做的。

  假设你被要求检测来自某个流程(工程或业务)的一批新数据是否有意义。所谓“有意义”是指新的数据是否属于它的“预期范围”,或者在它的“预期范围”之内。

  我们自动如潜意识驱使般,测量样本数据集的均值和标准差,并继续检查新数据是否在一定的标准偏差范围内。

  如果我们必须在95%的置信区间下工作,那么我们很高兴看到数据在2个标准差内。如果我们需要更严格的界限,我们检查3或4个标准差。我们计算Cpk,或者我们遵循六西格玛线的ppm(每百万零件数)的质量水平.

  最终,即使数据是非正态的,我们仍然需要一种数学上完整的方法来限定我们的置信区间。这意味着,我们的计算可能会有一点变化,但我们还是应该能说出这样的话:

  显然,我们需要寻求一个比珍贵的68-95-99.7的高斯界限更普遍的界限(对应于与平均值的1/2/3标准差距离)。

  切比雪夫不等式(也称为Bienaymé-Chebyshev不等式)可以确保,对于一类广泛的概率分布,不超过某特定分段的值会比均值的特定距离大。

  切比雪夫不等式可以使人们在随机变量X的分布未知的情况下,对事件x-uε概率作出估计。

  正如你现在可以猜到的,数据分析的基本机制不需要改变。你仍将收集数据样本,并且越大越好,计算 以前也会算的均值和标准差这两个量,然后应用新的界限,而不是68-95-99.7规则。

  通过看表格或数学定义痛点很明显。切比雪夫规则在数据界的问题上比高斯规则弱得多。

  首先,与正态分布的指数下降模式相比,它遵循1/k 的图形。再例如,要以95%的置信度设定界限,需要包含最多4.5标准偏差的数据,而对于正态分布只需要2个标准差。

  当然,还有切诺夫界以及Hoeffding不等式,它给出了独立随机变量和的指数锐尾分布。

  当数据看起来非正态分布时也可以用来代替高斯分布,但只适用于有高置信度,且数据相互独立的情况。

http://catacurian.net/gaosifenbu/21.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有