平均值
如果有 个测量值,其中第 个测量值标记为 ,那么均值为:
加权概率
使用均值时,误差会被抵消。为了证明有效,我们假设有以下误差:
真实值我们不知道,设为 ,然后加上误差就可以得到测量值:
展开计算出来,得到的就是真实值 。
期望
加权得到估计值,通常被称为数据的 期望(expectation)或者 均值(mean),它是每个值通过概率加权的和。
如果用 来表示测量值,用 来表示相应的概率,在数学上给均值的定义如下,其中均值通常用 来表示:
无论误差如何分布,一个极端误差的概率都会被另一个极端误差的概率抵消。随着样本越多,平均数的误差就会被抵消,最终接近真实的值。
数据的离散程度
平均绝对误差
由于正负误差存在,如果直接求差值的和,无法统计误差之和(会相互抵消)。为了获得误差的和,我们会使用 绝对值,也就是数值到 0 的距离:
但这个计算明显依赖数据量,数据越多,误差累计肯定越大,不同数量的数据集将无法进行比较。因此我们需要进行 归一化,乘以数据总数的倒数,得到一种不依赖样本量的离散程度度量方法:
方差
由于绝对值函数在 0 处不可导,因此我们考虑对差值进行平方:。在数学上,取平方值要比取绝对值容易。
除此之外,平方运算有 指数惩罚(exponential penalty),意味着距离均值越远的测量值会受到更大的处罚。
换言之,小的差异没有比大的差异重要,这也是符合我们直觉的。如果你开会被安排在错误的房间,如果正确房间是隔壁,那问题不大;但如果会议室是在另一个地点,甚至另外一个城市,你肯定就会很难受。
用平方代替绝对值,我们就得到了如下的公式:
这个公式被称为 方差(variance),在概率论中有非常特殊的地位。由于平方的数学性质比绝对值更好,因此在概率论的研究中,方差要比 MAD 使用得更多。
标准差
方差有很多有用的性质,但实际上其结果很难解释。人们很难想象方差等于 0.002秒² 意味着什么。MAD 的优点是结果符合我们的直觉。如果 MAD 的值为 0.4,则表示任何测量值与均值之间的平均距离都是 0.4。但是如果是方差,你就无法很好的解释。
为了解决这个问题,我们可以取方差的平方根,让它变成一个符合我们直觉的数值。方差的平方根被称为标准差(standard deviation),用希腊字母 sigma 的小写 来表示:
标准差结合了 MAD 的直观性和数学的简单性。标准差非常有用,所以在概率和统计学的很多文献中,方差直接被定义为 ,也就是标准差的平方。