Skip to content

均值与标准差

发布于  at 10:21 AM

平均值

如果有 nn 个测量值,其中第 ii 个测量值标记为 mim_i,那么均值为:

均值=m1+m2++mnn\text{均值}=\frac{m_1+m_2+\cdots +m_n}{n}

加权概率

使用均值时,误差会被抵消。为了证明有效,我们假设有以下误差:

4,1,1,24,1,-1,-2

真实值我们不知道,设为 tt,然后加上误差就可以得到测量值:

14(2+t)+14(1+t)+14(1+t)+14(2+t)\frac{1}{4}(2+t)+\frac{1}{4}(1+t)+\frac{1}{4}(-1+t)+\frac{1}{4}(-2+t)

展开计算出来,得到的就是真实值 tt

期望

加权得到估计值,通常被称为数据的 期望(expectation)或者 均值(mean),它是每个值通过概率加权的和。

如果用 xix_i 来表示测量值,用 pip_i 来表示相应的概率,在数学上给均值的定义如下,其中均值通常用 μ\mu 来表示:

μ=1npixi\mu=\sum_{1}^{n}p_i x_i

无论误差如何分布,一个极端误差的概率都会被另一个极端误差的概率抵消。随着样本越多,平均数的误差就会被抵消,最终接近真实的值。

数据的离散程度

平均绝对误差

由于正负误差存在,如果直接求差值的和,无法统计误差之和(会相互抵消)。为了获得误差的和,我们会使用 绝对值,也就是数值到 0 的距离:

inaiμa\sum_{i}^{n}|a_i-\mu_a|

但这个计算明显依赖数据量,数据越多,误差累计肯定越大,不同数量的数据集将无法进行比较。因此我们需要进行 归一化,乘以数据总数的倒数,得到一种不依赖样本量的离散程度度量方法:

MAD(x)=1n×inxiμMAD(x)=\frac{1}{n}\times \sum_{i}^{n}|x_i-\mu|

方差

由于绝对值函数在 0 处不可导,因此我们考虑对差值进行平方:(xiμ)2(x_i-\mu)^2。在数学上,取平方值要比取绝对值容易。

除此之外,平方运算有 指数惩罚(exponential penalty),意味着距离均值越远的测量值会受到更大的处罚。

换言之,小的差异没有比大的差异重要,这也是符合我们直觉的。如果你开会被安排在错误的房间,如果正确房间是隔壁,那问题不大;但如果会议室是在另一个地点,甚至另外一个城市,你肯定就会很难受。

用平方代替绝对值,我们就得到了如下的公式:

Var(x)=1n×in(xiμ)2Var(x)=\frac{1}{n}\times \sum_{i}^{n}(x_i-\mu)^2

这个公式被称为 方差(variance),在概率论中有非常特殊的地位。由于平方的数学性质比绝对值更好,因此在概率论的研究中,方差要比 MAD 使用得更多。

标准差

方差有很多有用的性质,但实际上其结果很难解释。人们很难想象方差等于 0.002秒² 意味着什么。MAD 的优点是结果符合我们的直觉。如果 MAD 的值为 0.4,则表示任何测量值与均值之间的平均距离都是 0.4。但是如果是方差,你就无法很好的解释。

为了解决这个问题,我们可以取方差的平方根,让它变成一个符合我们直觉的数值。方差的平方根被称为标准差(standard deviation),用希腊字母 sigma 的小写 σ\sigma 来表示:

σ=1n×i=1n(xμ)2\sigma=\sqrt{\frac{1}{n}\times \sum_{i=1}^{n}(x-\mu)^2}

标准差结合了 MAD 的直观性和数学的简单性。标准差非常有用,所以在概率和统计学的很多文献中,方差直接被定义为 σ2\sigma^2,也就是标准差的平方。

本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小谷的随笔

下一篇
条件概率与贝叶斯定理