爆竹厂测试
假设一家烟花爆竹厂在做安全测试。测试人员知道,如果离爆炸物 200 英尺,就能确保安全,而他需要 18 秒的时间才能走这么远。如果再靠近,就不能保证安全。
测试人员有 6 根同样长的引火线,他先计划测试其中 5 根。由于长度一样,因此这些引火线烧完所需的时间应该一样。最终记录的时间(以秒为单位):19、22、20、19、23。
计算出均值和标准差如下:
- 均值
- 标准差
测试人员希望有 99.9% 的把握安全撤离。
正态分布
正态分布是一种连续的概率分布,在已知均值和标准差的情况下,描述对不确定测量值可能的信念的强度。均值 和标准差 是正态分布仅有的两个参数。
且 的正态分布呈钟形。
x = -5:0.01:5;
y = normpdf(x, 0, 1);
plot(x, y, '-');
xlabel("值");
ylabel("密度");
grid on;
可以看到,均值位于正态分布的中心位置,正态分布的宽度则由其标准差决定。
x = -5:0.01:5;
y = normpdf(x, 0, 2);
plot(x, y, '-');
xlabel("值");
ylabel("密度");
title("均值为 0,标准差为 2");
grid on;
x = -5:0.01:5;
y = normpdf(x, 0, 0.5);
plot(x, y, '-');
xlabel("值");
ylabel("密度");
title("均值为 0,标准差为 0.5");
grid on;
随着标准差的缩小,正态分布的宽度也在缩小。
正态分布反映了我们对均值信心。 如果测量值比较分散(标准差比较大),我们就会认为有更大范围的可能值,对中心均值的信心就会降低。
解决引火线问题
我们基于均值 和标准差 ,使用正态分布进行建模。
data = [19 22 20 19 23];
x = 10:0.01:30;
mu = mean(data);
sigma = std(data);
y = normpdf(x, mu, sigma);
plot(x, y, '-');
xlabel("值");
ylabel("密度");
title(sprintf("均值为 %.2f,标准差为 %.2f", mu, sigma));
grid on;
我们想回答的问题是,引火线燃烧时间小于或等于 18 秒的概率是多少?
正态分布的 PDF 公式是:
为了求这个概率,需要在不大于 18 的值进行积分:
对应的,实际上我们求的就是 CDF:
normcdf(18, mu, sigma)
ans =
0.0762
这告诉我们,小于等于 18 秒的概率大约是 7.6%。
正态分布的威力在于,我们可以对均值的各种可能性进行概率推理,可以了解均值的现实意义。我们可以在任何时候使用正态分布来推理那些只知道均值的和标准差的数据。
但是,这也是正态分布可能出问题的地方。在实践中,如果除了均值和标准差,还有求解问题的其它信息,那么最好利用上这些信息。
“N 西格玛” 事件
对于正态分布,有一个有用的技巧,可以简化问题。我们可以使用 和 估计面积。
例如,从 (比均值小一个标准差)到 (比均值大一个标准差),这个范围的曲线下站分布质量的 68%。
也就是说,有 68% 的可能取值落在均值 ± 一个标准差的范围内。
与均值的距离 | 概率 |
---|---|
68% | |
95% | |
99.7% |
例如:如果你想知道引火线超过 21 秒的概率,但又不想积分上限是正无穷。那么就可以用 进行估算。26.06(),那么三个标准差占总概率的 99.7%,而且剩余的 0.3% 是在两边的,其中只有一半,也就是只有概率密度的 0.15%。这样其实只会遗漏很小的概率。
一个事件随着 N 西格玛的增加而变得越来越罕见,一觉醒来是你的生日,这是 的事件,一觉醒来行星正撞向地球,这是 的事件。
与均值的距离 | 预计多长时间会发生一次 |
---|---|
3天 | |
3周 | |
1年 | |
40年 | |
5000年 | |
140万年 |