標準差













標準差(又稱標準偏差、均方差,英语:Standard Deviation,縮寫SD),數學符號σ(sigma),在概率統計中最常使用作為測量一組數值的離散程度之用。標準差定義:為方差開算术平方根,反映组内個體間的離散程度;標準差與期望值之比為標準離差率。測量到分佈程度的結果,原則上具有兩種性質:



  1. 為非負數值(因為開平方後再做平方根);

  2. 與測量資料具有相同單位(這樣才能比對)。


一個總量的標準差或一個隨機變量的標準差,及一個子集合樣品數的標準差之間,有所差別。其公式如下所列。


標準差的概念由卡爾·皮爾遜引入到統計中。




目录






  • 1 闡述及應用


  • 2 母體的標準差


    • 2.1 基本定義


    • 2.2 简化计算公式


    • 2.3 母體為随机变量


      • 2.3.1 離散随机变量的标准差


      • 2.3.2 连续随机变量的标准差




    • 2.4 标准差的特殊性质




  • 3 样本的标准差


  • 4 範例


  • 5 常態分佈的規則


  • 6 標準差與平均值之間的關係


  • 7 几何学解释


  • 8 參考資料


  • 9 外部链接





闡述及應用


簡單來說,標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。


例如,兩組數的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個集合具有較小的標準差。


表述“相差k个标准差”,即在 X̄ ± kS 的样本(Sample)范围内考量。


標準差可以當作不確定性的一種測量。例如在物理科學中,做重複性測量時,測量數值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,測量值的標準差佔有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正確。


標準差應用於投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。



母體的標準差



基本定義


 SD=1N∑i=1N(xi−μ)2{displaystyle SD={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}} SD= sqrt{frac{1}{N} sum_{i=1}^N (x_i - mu)^2}

μ{displaystyle mu }mu 为平均值({displaystyle {overline {x}}}{overline {x}})。


簡易口訣:離均差平方的平均;方均根。



简化计算公式


上述公式可以如下代換而簡化:


i=1N(Xi−μ)2=∑i=1N(Xi2−2Xiμ2)=(∑i=1NXi2)−(2μi=1NXi)+Nμ2=(∑i=1NXi2)−(Nμ)+Nμ2=(∑i=1NXi2)−2Nμ2+Nμ2=(∑i=1NXi2)−2{displaystyle {begin{aligned}sum _{i=1}^{N}(X_{i}-mu )^{2}&={}sum _{i=1}^{N}(X_{i}^{2}-2X_{i}mu +mu ^{2})\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-left(2mu sum _{i=1}^{N}X_{i}right)+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-2mu (Nmu )+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-2Nmu ^{2}+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-Nmu ^{2}end{aligned}}}begin{align}<br />
sum_{i=1}^N (X_i - mu)^2 & = {} sum_{i=1}^N (X_i^2 - 2 X_imu + mu^2) \<br />
& {} = left(sum_{i=1}^N X_i^2right) - left(2 mu sum_{i=1}^N X_iright) + Nmu^2 \<br />
& {} = left(sum_{i=1}^N X_i^2right) - 2 mu (Nmu) + Nmu^2 \<br />
& {} = left(sum_{i=1}^N X_i^2right) - 2Nmu^2 + Nmu^2 \<br />
& {} = left(sum_{i=1}^N X_i^2right) - Nmu^2<br />
end{align}

所以:



σ=1N∑i=1N(Xi−μ)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(X_{i}-mu )^{2}}}}sigma ={sqrt  {{frac  {1}{N}}sum _{{i=1}}^{N}(X_{i}-mu )^{2}}}

=1N(∑i=1NXi2)−1NNμ2{displaystyle ={sqrt {{frac {1}{N}}left(sum _{i=1}^{N}X_{i}^{2}right)-{frac {1}{N}}Nmu ^{2}}}} = sqrt{frac{1}{N} left(sum_{i=1}^N X_i^2right) - frac{1}{N}Nmu^2}

=∑i=1NXi2N−μ2{displaystyle ={sqrt {{frac {sum _{i=1}^{N}X_{i}^{2}}{N}}-mu ^{2}}}} = sqrt{ frac{sum_{i=1}^N X_i^2}{N}  - mu^2 }



根號裡面,亦即變異數(σ2{displaystyle sigma ^{2}}sigma^2)的簡易口訣為:「平方和的平均」減去「平均的平方」。



母體為随机变量


一隨機變量X{displaystyle X}X的標準差定義為:


σ=E⁡((X−E⁡(X))2)=E⁡(X2)−(E⁡(X))2{displaystyle sigma ={sqrt {operatorname {E} ((X-operatorname {E} (X))^{2})}}={sqrt {operatorname {E} (X^{2})-(operatorname {E} (X))^{2}}}}sigma = sqrt{operatorname{E}((X-operatorname{E}(X))^2)} = sqrt{operatorname{E}(X^2) - (operatorname{E}(X))^2}

須注意並非所有隨機變量都具有標準差,因為有些隨機變量不存在期望值。
如果隨機變量X{displaystyle X}Xx1,⋯,xn{displaystyle x_{1},cdots ,x_{n}}x_1, cdots, x_n具有相同機率,則可用上述公式計算標準差。



離散随机变量的标准差


X{displaystyle X}X是由實數x1,x2,...,xn{displaystyle x_{1},x_{2},...,x_{n}}x_{1}, x_{2}, ..., x_{n}構成的離散隨機變數(英语:discrete random variable),且每個值的機率相等,則X{displaystyle X}X的標準差定義為:



σ=1N[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2]{displaystyle sigma ={sqrt {{frac {1}{N}}left[(x_{1}-mu )^{2}+(x_{2}-mu )^{2}+cdots +(x_{N}-mu )^{2}right]}}}sigma = sqrt{frac{1}{N}left[(x_1-mu)^2 + (x_2-mu)^2 + cdots + (x_N - mu)^2right]} ,其中 μ=1N(x1+⋯+xN){displaystyle mu ={frac {1}{N}}(x_{1}+cdots +x_{N})} mu = frac{1}{N} (x_1 + cdots + x_N)

換成用{displaystyle sum }sum來寫,就成為:



σ=1N∑i=1N(xi−μ)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}}sigma = sqrt{frac{1}{N} sum_{i=1}^N (x_i - mu)^2} ,其中 μ=1N(x1+⋯+xN){displaystyle mu ={frac {1}{N}}(x_{1}+cdots +x_{N})} mu = frac{1}{N} (x_1 + cdots + x_N)

目前為止,與母體標準差的基本公式一致。


然而若每個xi{displaystyle x_{i}}x_{i}可以有不同機率pi{displaystyle p_{i}}p_{i},則X{displaystyle X}X的标准差定義為:



σ=∑i=1Npi(xi−μ)2{displaystyle sigma ={sqrt {sum _{i=1}^{N}p_{i}(x_{i}-mu )^{2}}}}sigma = sqrt{sum_{i=1}^N p_i(x_i - mu)^2} ,其中 μ=∑i=1Npixi.{displaystyle mu =sum _{i=1}^{N}p_{i}x_{i}.}mu = sum_{i=1}^N p_i x_i.


连续随机变量的标准差


X{displaystyle X}X為概率密度p(X){displaystyle p(X)}p(X)的连续随机变量(英语:continuous random variable),則X{displaystyle X}X的标准差定義為:


σ=∫(x−μ)2p(x)dx{displaystyle sigma ={sqrt {int (x-mu )^{2},p(x),dx}}}sigma = sqrt{int (x-mu)^2 , p(x) , dx}

其中


μ=∫xp(x)dx{displaystyle mu =int x,p(x),dx}mu = int x , p(x) , dx


标准差的特殊性质


对于常数c{displaystyle c}c和随机变量X{displaystyle X}XY{displaystyle Y}Y



σ(X+c)=σ(X){displaystyle sigma (X+c)=sigma (X)}sigma(X+c)=sigma(X)

σ(cX)=c⋅σ(X){displaystyle sigma (cX)=ccdot sigma (X)}sigma(cX)=ccdotsigma(X)


σ(X+Y)=σ2(X)+σ2(Y)+2⋅cov(X,Y){displaystyle sigma (X+Y)={sqrt {sigma ^{2}(X)+sigma ^{2}(Y)+2cdot {mbox{cov}}(X,Y)}}}sigma(X+Y) = sqrt{ sigma^2(X) + sigma^2(Y) + 2cdotmbox{cov} (X,Y)}
其中:


  • cov(X,Y){displaystyle {mbox{cov}}(X,Y)}mbox{cov}(X,Y)表示随机变量X{displaystyle X}XY{displaystyle Y}Y的协方差。


  • σ2(X){displaystyle sigma ^{2}(X)}{displaystyle sigma ^{2}(X)}表示(X)]2{displaystyle [sigma (X)]^{2}}{displaystyle [sigma (X)]^{2}},即Var(X){displaystyle Var(X)}{displaystyle Var(X)}X{displaystyle X}X的變異數),對Y{displaystyle Y}Y亦同。






样本的标准差


在真实世界中,找到一个总体的真实的标准差並不實際。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。


從一大組數值X1,⋯,XN{displaystyle X_{1},cdots ,X_{N}}X_1, cdots, X_N當中取出一樣本數值組合x1,⋯,xn:n<N{displaystyle x_{1},cdots ,x_{n}:n<N}x_1, cdots, x_n : n < N,常定義其樣本標準差


s=1n−1∑i=1n(xi−)2{displaystyle s={sqrt {{frac {1}{n-1}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}}<br />
s = sqrt{frac{1}{n-1} sum_{i=1}^n (x_i - bar{x})^2}<br />

样本方差s2{displaystyle s^{2}}s^2是对总体方差σ2{displaystyle sigma ^{2}}sigma^2的无偏估计。之所以s{displaystyle s}s中的分母要用n−1{displaystyle n-1}n-1而不是像总体样本差那样用n{displaystyle n}n,是因为(xi−){displaystyle left(x_{i}-{bar {x}}right)}left( x_i - bar{x} right)的自由度为n−1{displaystyle n-1}n-1,这是由于存在约束条件i=1n(xi−)=0{displaystyle sum _{i=1}^{n}left(x_{i}-{bar {x}}right)=0}sum_{i=1}^{n}left(x_i - bar{x}right) = 0



範例


這裡示範如何計算一組數的標準差。例如一群孩童年齡的數值為{ 5, 6, 8, 9 }:


  • 第一步,計算平均值{displaystyle {overline {x}}}{overline {x}}

=1N∑i=1Nxi{displaystyle {overline {x}}={frac {1}{N}}sum _{i=1}^{N}x_{i}}overline{x}=frac{1}{N}sum_{i=1}^N x_i

N=4{displaystyle {begin{smallmatrix}N=4end{smallmatrix}}}begin{smallmatrix}N = 4end{smallmatrix}(因為集合裏有4個數),分別設為:

x1=5x2=6x3=8x4=9{displaystyle {begin{aligned}x_{1}&=5\x_{2}&=6\x_{3}&=8\x_{4}&=9\end{aligned}}}<br />
begin{align}<br />
x_1 &= 5 \<br />
x_2 &= 6 \<br />
x_3 &= 8 \<br />
x_4 &= 9 \<br />
end{align}<br />


=14∑i=14xi{displaystyle {overline {x}}={frac {1}{4}}sum _{i=1}^{4}x_{i}}overline{x}=frac{1}{4}sum_{i=1}^4 x_i(N=4){displaystyle (N=4)}(N = 4)

=14(x1+x2+x3+x4){displaystyle {overline {x}}={frac {1}{4}}left(x_{1}+x_{2}+x_{3}+x_{4}right)}overline{x}=frac{1}{4} left ( x_1 + x_2 + x_3 +x_4 right )

=14(5+6+8+9){displaystyle {overline {x}}={frac {1}{4}}left(5+6+8+9right)}overline{x}=frac{1}{4} left ( 5 + 6 + 8 + 9 right )


=7{displaystyle {overline {x}}=7}overline{x}= 7(此為平均值)

  • 第二步,計算標準差σ{displaystyle sigma ,}sigma,

σ=1N∑i=1N(xi−)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-{overline {x}})^{2}}}}sigma = sqrt{frac{1}{N} sum_{i=1}^N (x_i - overline{x})^2}


σ=14∑i=14(xi−)2{displaystyle sigma ={sqrt {{frac {1}{4}}sum _{i=1}^{4}(x_{i}-{overline {x}})^{2}}}}sigma = sqrt{frac{1}{4} sum_{i=1}^4 (x_i - overline{x})^2}(N=4){displaystyle (N=4)}(N = 4)


σ=14∑i=14(xi−7)2{displaystyle sigma ={sqrt {{frac {1}{4}}sum _{i=1}^{4}(x_{i}-7)^{2}}}}sigma = sqrt{frac{1}{4} sum_{i=1}^4 (x_i - 7)^2}(x¯=7){displaystyle ({overline {x}}=7)}(overline{x} = 7)

σ=14[(x1−7)2+(x2−7)2+(x3−7)2+(x4−7)2]{displaystyle sigma ={sqrt {{frac {1}{4}}left[(x_{1}-7)^{2}+(x_{2}-7)^{2}+(x_{3}-7)^{2}+(x_{4}-7)^{2}right]}}}sigma = sqrt{frac{1}{4} left [ (x_1 - 7)^2 + (x_2 - 7)^2 + (x_3 - 7)^2 + (x_4 - 7)^2 right ] }

σ=14[(5−7)2+(6−7)2+(8−7)2+(9−7)2]{displaystyle sigma ={sqrt {{frac {1}{4}}left[(5-7)^{2}+(6-7)^{2}+(8-7)^{2}+(9-7)^{2}right]}}}sigma = sqrt{frac{1}{4} left [ (5 - 7)^2 + (6 - 7)^2 + (8 - 7)^2 + (9 - 7)^2 right ] }

σ=14((−2)2+(−1)2+12+22){displaystyle sigma ={sqrt {{frac {1}{4}}left((-2)^{2}+(-1)^{2}+1^{2}+2^{2}right)}}}sigma = sqrt{frac{1}{4} left ( (-2)^2 + (-1)^2 + 1^2 + 2^2 right ) }

σ=14(4+1+1+4){displaystyle sigma ={sqrt {{frac {1}{4}}left(4+1+1+4right)}}}sigma = sqrt{frac{1}{4} left ( 4 + 1 + 1 + 4 right ) }

σ=104{displaystyle sigma ={sqrt {frac {10}{4}}}}sigma = sqrt{frac{10}{4}}


σ1.58114{displaystyle sigma approx 1.58114,!}{displaystyle sigma approx 1.58114,!}(此為標準差)


常態分佈的規則





深藍區域是距平均值小於一個標準差之內的數值範圍,在常態分佈中,此範圍所佔比率為全部數值之68%;兩個標準差之內(深藍,藍)的比率合起來為95%;三個標準差之內(深藍,藍,淺藍)的比率合起來為99.7%


在實際應用上,常考慮一組數據具有近似於常態分佈的機率分佈。若其假設正確,則約68%數值分佈在距離平均值有1個標準差之內的範圍,約95%數值分佈在距離平均值有2個標準差之內的範圍,以及約99.7%數值分佈在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」。


f(x;μ2)=1σe−12(x−μσ)2{displaystyle f(x;mu ,sigma ^{2})={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}}}{displaystyle f(x;mu ,sigma ^{2})={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}}}

Proportion=erf⁡(z2){displaystyle {text{Proportion}}=operatorname {erf} left({frac {z}{sqrt {2}}}right)}{displaystyle {text{Proportion}}=operatorname {erf} left({frac {z}{sqrt {2}}}right)}


Proportion≤x=12[1+erf⁡(x−μσ2)]=12[1+erf⁡(z2)]{displaystyle {text{Proportion}}leq x={frac {1}{2}}left[1+operatorname {erf} left({frac {x-mu }{sigma {sqrt {2}}}}right)right]={frac {1}{2}}left[1+operatorname {erf} left({frac {z}{sqrt {2}}}right)right]}{displaystyle {text{Proportion}}leq x={frac {1}{2}}left[1+operatorname {erf} left({frac {x-mu }{sigma {sqrt {2}}}}right)right]={frac {1}{2}}left[1+operatorname {erf} left({frac {z}{sqrt {2}}}right)right]}.[1]



Percentage within(z)





z(Percentage within)





































































































































































數字比率
標準差值
機率
包含之外比例
百分比
百分比
比例
0.318 639σ
25%
75%
3 / 4
0.318 639σ
25%
75%
3 / 4

0.674490σ

50%

50%
1 / 2

0.994458σ
68%
32%
1 / 3.125
1σ

68.2689492%

31.7310508%
1 / 3.1514872

1.281552σ
80%
20%
1 / 5

1.644854σ
90%
10%
1 / 10

1.959964σ
95%
5%
1 / 20
2σ

95.4499736%

4.5500264%
1 / 21.977895

2.575829σ
99%
1%
1 / 100
3σ

99.7300204%

0.2699796%
1 / 370.398

3.290527σ
99.9%
0.1%
1 / 1,000

3.890592σ
99.99%
0.01%
1 / 10,000
4σ

99.993666%

0.006334%
1 / 15,787

4.417173σ
99.999%
0.001%
1 / 100,000

4.5σ

99.9993204653751%

0.0006795346249%
1 / 147,159.5358
3.4 / 1,000,000 (每一邊)

4.891638σ

99.9999%

0.0001%
1 / 1,000,000
5σ

99.9999426697%

0.0000573303%
1 / 1,744,278

5.326724σ

99.99999%

0.00001%
1 / 10,000,000

5.730729σ

99.999999%

0.000001%
1 / 100,000,000

6σ

99.9999998027%

0.0000001973%
1 / 506,797,346

6.109410σ

99.9999999%

0.0000001%
1 / 1,000,000,000

6.466951σ

99.99999999%

0.00000001%
1 / 10,000,000,000

6.806502σ

99.999999999%

0.000000001%
1 / 100,000,000,000
7σ

99.9999999997440%

0.000000000256%
1 / 390,682,215,445


標準差與平均值之間的關係


一組數據的平均值及標準差常常同時作為參考的依據。从某种意义上说,如果用平均值來考量數值的中心的话,則標準差也就是对统计的分散度的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。較確切的敘述為:設X1,⋯,XN{displaystyle X_{1},cdots ,X_{N}}X_1, cdots, X_N為實數,定義函数:


σ)=1N∑i=1N(xi−μ)2{displaystyle sigma (mu )={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}}sigma(mu) = sqrt{frac{1}{N} sum_{i=1}^N (x_i - mu)^2}

使用微積分或者通过配方法,不難算出σ){displaystyle sigma (mu )}sigma(mu)在下面情況下具有唯一最小值:


μ=x¯{displaystyle mu ={overline {x}}}mu = overline{x}


几何学解释


从几何学的角度出发,标准差可以理解为一个从n{displaystyle n}n维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3{displaystyle X_{1},X_{2},X_{3}}X_1, X_2, X_3。它们可以在3维空间中确定一个点P=(X1,X2,X3){displaystyle P=(X_{1},X_{2},X_{3})}P = (X_1, X_2, X_3)。想像一条通过原点的直线L=(r,r,r):r∈R{displaystyle L={(r,r,r):rin mathbb {R} }}L = {(r, r, r) : r in mathbb{R}}。如果这组数据中的3个值都相等,则点P{displaystyle P}P就是直线L{displaystyle L}L上的一个点,P{displaystyle P}PL{displaystyle L}L的距离为0,所以标准差也为0。若这3个值不都相等,过点P{displaystyle P}P作垂线PR{displaystyle PR}PR垂直于L{displaystyle L}LPR{displaystyle PR}PRL{displaystyle L}L于点R{displaystyle R}R,则R{displaystyle R}R的坐标为这3个值的平均数:


R=(x¯,x¯,x¯){displaystyle R=({overline {x}},{overline {x}},{overline {x}})}R = (overline{x},overline{x},overline{x})

运用一些代数知识,不难发现点P{displaystyle P}P与点R{displaystyle R}R之间的距离(也就是点P{displaystyle P}P到直线L{displaystyle L}L的距离)是σ3{displaystyle sigma {sqrt {3}}}sigma sqrt{3}。在n{displaystyle n}n维空间中,这个规律同样适用,把3{displaystyle 3}3换成n{displaystyle n}n就可以了。



參考資料





  1. ^ Eric W. Weisstein. Distribution Function. MathWorld—A Wolfram Web Resource. [2014-09-30]. 




外部链接



  • Standard Deviation Calculator,标准差计算器 (英文)







Comments

Popular posts from this blog

Information security

Lambak Kiri

章鱼与海女图