均值与标准差 | 小谷的随笔

平均值

如果有 $n$ 个测量值，其中第 $i$ 个测量值标记为 $m_i$ ，那么均值为：

\text{均值}=\frac{m_1+m_2+\cdots +m_n}{n}

使用均值时，误差会被抵消。为了证明有效，我们假设有以下误差：

4,1,-1,-2

真实值我们不知道，设为 $t$ ，然后加上误差就可以得到测量值：

\frac{1}{4}(2+t)+\frac{1}{4}(1+t)+\frac{1}{4}(-1+t)+\frac{1}{4}(-2+t)

展开计算出来，得到的就是真实值 $t$ 。

加权得到估计值，通常被称为数据的期望（expectation）或者均值（mean），它是每个值通过概率加权的和。

如果用 $x_i$ 来表示测量值，用 $p_i$ 来表示相应的概率，在数学上给均值的定义如下，其中均值通常用 $\mu$ 来表示：

\mu=\sum_{1}^{n}p_i x_i

无论误差如何分布，一个极端误差的概率都会被另一个极端误差的概率抵消。随着样本越多，平均数的误差就会被抵消，最终接近真实的值。

由于正负误差存在，如果直接求差值的和，无法统计误差之和（会相互抵消）。为了获得误差的和，我们会使用 绝对值，也就是数值到 0 的距离：

\sum_{i}^{n}|a_i-\mu_a|

但这个计算明显依赖数据量，数据越多，误差累计肯定越大，不同数量的数据集将无法进行比较。因此我们需要进行 归一化，乘以数据总数的倒数，得到一种不依赖样本量的离散程度度量方法：

MAD(x)=\frac{1}{n}\times \sum_{i}^{n}|x_i-\mu|

由于绝对值函数在 0 处不可导，因此我们考虑对差值进行平方： $(x_i-\mu)^2$ 。在数学上，取平方值要比取绝对值容易。

除此之外，平方运算有 指数惩罚（exponential penalty），意味着距离均值越远的测量值会受到更大的处罚。

换言之，小的差异没有比大的差异重要，这也是符合我们直觉的。如果你开会被安排在错误的房间，如果正确房间是隔壁，那问题不大；但如果会议室是在另一个地点，甚至另外一个城市，你肯定就会很难受。

用平方代替绝对值，我们就得到了如下的公式：

Var(x)=\frac{1}{n}\times \sum_{i}^{n}(x_i-\mu)^2

这个公式被称为方差（variance），在概率论中有非常特殊的地位。由于平方的数学性质比绝对值更好，因此在概率论的研究中，方差要比 MAD 使用得更多。

方差有很多有用的性质，但实际上其结果很难解释。人们很难想象方差等于 0.002秒² 意味着什么。MAD 的优点是结果符合我们的直觉。如果 MAD 的值为 0.4，则表示任何测量值与均值之间的平均距离都是 0.4。但是如果是方差，你就无法很好的解释。

为了解决这个问题，我们可以取方差的平方根，让它变成一个符合我们直觉的数值。方差的平方根被称为标准差（standard deviation），用希腊字母 sigma 的小写 $\sigma$ 来表示：

\sigma=\sqrt{\frac{1}{n}\times \sum_{i=1}^{n}(x-\mu)^2}

标准差结合了 MAD 的直观性和数学的简单性。标准差非常有用，所以在概率和统计学的很多文献中，方差直接被定义为 $\sigma^2$ ，也就是标准差的平方。

>> std([19 22 20 19 23])

ans =

    1.8166

>> std([19 22 20 19 23], 1)

ans =

    1.6248

std([19 22 20 19 23]) 样本标准差（默认），使用 n-1 作为分母（贝塞尔校正）。这是对总体标准差的无偏估计。

std([19 22 20 19 23], 1) 代表总体标准差：使用 n 作为分母。这是描述性统计量。

当数据是从更大总体中抽取的样本时使用样本标准差；当数据代表完整总体时使用总体标准差。

由于大多数时候我们并不能肯定收集了全部数据，所以通常我们是使用样本标准差（我们假设我们只是抽取了一部分样本）。