偏度(Skewness)是 衡量数据分布不对称程度的统计量。它反映了数据分布相对于其均值的偏斜方向和程度。具体来说,正偏度表示数据分布向右偏斜,长尾部分位于右侧;负偏度则表示数据分布向左偏斜,长尾部分位于左侧。偏度的存在表明数据在某一方向上存在较为极端的值,这些极端值可能是潜在的异常数据。
偏度的计算公式为:
\[ S_k = \frac{\sum_{i=1}^{n} (x_i - \mu)^3}{n \cdot s^3} \]
其中:
\( x_i \) 是从总体中随机抽取的一个样本数据
\( \mu \) 是样本的算术平均数
\( s \) 是样本的标准差
\( n \) 是样本容量
根据偏度的值,可以将数据分布分为以下三类:
正态分布:
偏度 \( S_k = 0 \),数据分布是对称的。
右偏分布(正偏分布):偏度 \( S_k > 0 \),数据分布有一个长长的右尾,即数据中存在较大的值较多。
左偏分布(负偏分布):偏度 \( S_k < 0 \),数据分布有一个长长的左尾,即数据中存在较小的值较多。
偏度在统计学中被广泛应用于各个领域的数据分析中,帮助研究者了解数据的偏斜性质,从而更好地进行数据分析和决策。