標準差
標準差(又稱標準偏差、均方差,英语:Standard Deviation,縮寫SD),數學符號σ(sigma),在概率統計中最常使用作為測量一組數值的離散程度之用。標準差定義:為方差開算术平方根,反映组内個體間的離散程度;標準差與期望值之比為標準離差率。測量到分佈程度的結果,原則上具有兩種性質:
- 為非負數值(因為開平方後再做平方根);
- 與測量資料具有相同單位(這樣才能比對)。
一個總量的標準差或一個隨機變量的標準差,及一個子集合樣品數的標準差之間,有所差別。其公式如下所列。
標準差的概念由卡爾·皮爾遜引入到統計中。
目录
1 闡述及應用
2 母體的標準差
2.1 基本定義
2.2 简化计算公式
2.3 母體為随机变量
2.3.1 離散随机变量的标准差
2.3.2 连续随机变量的标准差
2.4 标准差的特殊性质
3 样本的标准差
4 範例
5 常態分佈的規則
6 標準差與平均值之間的關係
7 几何学解释
8 參考資料
9 外部链接
闡述及應用
簡單來說,標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
例如,兩組數的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個集合具有較小的標準差。
表述“相差k个标准差”,即在 X̄ ± kS 的样本(Sample)范围内考量。
標準差可以當作不確定性的一種測量。例如在物理科學中,做重複性測量時,測量數值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,測量值的標準差佔有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正確。
標準差應用於投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。
母體的標準差
基本定義
- SD=1N∑i=1N(xi−μ)2{displaystyle SD={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}}
μ{displaystyle mu }为平均值(x¯{displaystyle {overline {x}}})。
簡易口訣:離均差平方的平均;方均根。
简化计算公式
上述公式可以如下代換而簡化:
- ∑i=1N(Xi−μ)2=∑i=1N(Xi2−2Xiμ+μ2)=(∑i=1NXi2)−(2μ∑i=1NXi)+Nμ2=(∑i=1NXi2)−2μ(Nμ)+Nμ2=(∑i=1NXi2)−2Nμ2+Nμ2=(∑i=1NXi2)−Nμ2{displaystyle {begin{aligned}sum _{i=1}^{N}(X_{i}-mu )^{2}&={}sum _{i=1}^{N}(X_{i}^{2}-2X_{i}mu +mu ^{2})\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-left(2mu sum _{i=1}^{N}X_{i}right)+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-2mu (Nmu )+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-2Nmu ^{2}+Nmu ^{2}\&{}=left(sum _{i=1}^{N}X_{i}^{2}right)-Nmu ^{2}end{aligned}}}
所以:
σ=1N∑i=1N(Xi−μ)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(X_{i}-mu )^{2}}}}
- =1N(∑i=1NXi2)−1NNμ2{displaystyle ={sqrt {{frac {1}{N}}left(sum _{i=1}^{N}X_{i}^{2}right)-{frac {1}{N}}Nmu ^{2}}}}
- =∑i=1NXi2N−μ2{displaystyle ={sqrt {{frac {sum _{i=1}^{N}X_{i}^{2}}{N}}-mu ^{2}}}}
根號裡面,亦即變異數(σ2{displaystyle sigma ^{2}})的簡易口訣為:「平方和的平均」減去「平均的平方」。
母體為随机变量
一隨機變量X{displaystyle X}的標準差定義為:
- σ=E((X−E(X))2)=E(X2)−(E(X))2{displaystyle sigma ={sqrt {operatorname {E} ((X-operatorname {E} (X))^{2})}}={sqrt {operatorname {E} (X^{2})-(operatorname {E} (X))^{2}}}}
須注意並非所有隨機變量都具有標準差,因為有些隨機變量不存在期望值。
如果隨機變量X{displaystyle X}為x1,⋯,xn{displaystyle x_{1},cdots ,x_{n}}具有相同機率,則可用上述公式計算標準差。
離散随机变量的标准差
若X{displaystyle X}是由實數x1,x2,...,xn{displaystyle x_{1},x_{2},...,x_{n}}構成的離散隨機變數(英语:discrete random variable),且每個值的機率相等,則X{displaystyle X}的標準差定義為:
σ=1N[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2]{displaystyle sigma ={sqrt {{frac {1}{N}}left[(x_{1}-mu )^{2}+(x_{2}-mu )^{2}+cdots +(x_{N}-mu )^{2}right]}}} ,其中 μ=1N(x1+⋯+xN){displaystyle mu ={frac {1}{N}}(x_{1}+cdots +x_{N})}
換成用∑{displaystyle sum }來寫,就成為:
σ=1N∑i=1N(xi−μ)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}} ,其中 μ=1N(x1+⋯+xN){displaystyle mu ={frac {1}{N}}(x_{1}+cdots +x_{N})}
目前為止,與母體標準差的基本公式一致。
然而若每個xi{displaystyle x_{i}}可以有不同機率pi{displaystyle p_{i}},則X{displaystyle X}的标准差定義為:
σ=∑i=1Npi(xi−μ)2{displaystyle sigma ={sqrt {sum _{i=1}^{N}p_{i}(x_{i}-mu )^{2}}}} ,其中 μ=∑i=1Npixi.{displaystyle mu =sum _{i=1}^{N}p_{i}x_{i}.}
连续随机变量的标准差
若X{displaystyle X}為概率密度p(X){displaystyle p(X)}的连续随机变量(英语:continuous random variable),則X{displaystyle X}的标准差定義為:
- σ=∫(x−μ)2p(x)dx{displaystyle sigma ={sqrt {int (x-mu )^{2},p(x),dx}}}
其中
- μ=∫xp(x)dx{displaystyle mu =int x,p(x),dx}
标准差的特殊性质
对于常数c{displaystyle c}和随机变量X{displaystyle X}和Y{displaystyle Y}:
- σ(X+c)=σ(X){displaystyle sigma (X+c)=sigma (X)}
- σ(cX)=c⋅σ(X){displaystyle sigma (cX)=ccdot sigma (X)}
σ(X+Y)=σ2(X)+σ2(Y)+2⋅cov(X,Y){displaystyle sigma (X+Y)={sqrt {sigma ^{2}(X)+sigma ^{2}(Y)+2cdot {mbox{cov}}(X,Y)}}}
- 其中:
cov(X,Y){displaystyle {mbox{cov}}(X,Y)}表示随机变量X{displaystyle X}和Y{displaystyle Y}的协方差。
σ2(X){displaystyle sigma ^{2}(X)}表示[σ(X)]2{displaystyle [sigma (X)]^{2}},即Var(X){displaystyle Var(X)}(X{displaystyle X}的變異數),對Y{displaystyle Y}亦同。
- 其中:
样本的标准差
在真实世界中,找到一个总体的真实的标准差並不實際。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
從一大組數值X1,⋯,XN{displaystyle X_{1},cdots ,X_{N}}當中取出一樣本數值組合x1,⋯,xn:n<N{displaystyle x_{1},cdots ,x_{n}:n<N},常定義其樣本標準差:
- s=1n−1∑i=1n(xi−x¯)2{displaystyle s={sqrt {{frac {1}{n-1}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}}
样本方差s2{displaystyle s^{2}}是对总体方差σ2{displaystyle sigma ^{2}}的无偏估计。之所以s{displaystyle s}中的分母要用n−1{displaystyle n-1}而不是像总体样本差那样用n{displaystyle n},是因为(xi−x¯){displaystyle left(x_{i}-{bar {x}}right)}的自由度为n−1{displaystyle n-1},这是由于存在约束条件∑i=1n(xi−x¯)=0{displaystyle sum _{i=1}^{n}left(x_{i}-{bar {x}}right)=0}。
範例
這裡示範如何計算一組數的標準差。例如一群孩童年齡的數值為{ 5, 6, 8, 9 }:
- 第一步,計算平均值x¯{displaystyle {overline {x}}}︰
- x¯=1N∑i=1Nxi{displaystyle {overline {x}}={frac {1}{N}}sum _{i=1}^{N}x_{i}}
- 當N=4{displaystyle {begin{smallmatrix}N=4end{smallmatrix}}}(因為集合裏有4個數),分別設為:
- x1=5x2=6x3=8x4=9{displaystyle {begin{aligned}x_{1}&=5\x_{2}&=6\x_{3}&=8\x_{4}&=9\end{aligned}}}
x¯=14∑i=14xi{displaystyle {overline {x}}={frac {1}{4}}sum _{i=1}^{4}x_{i}}(N=4){displaystyle (N=4)}
- x¯=14(x1+x2+x3+x4){displaystyle {overline {x}}={frac {1}{4}}left(x_{1}+x_{2}+x_{3}+x_{4}right)}
- x¯=14(5+6+8+9){displaystyle {overline {x}}={frac {1}{4}}left(5+6+8+9right)}
x¯=7{displaystyle {overline {x}}=7}(此為平均值)
- 第二步,計算標準差σ{displaystyle sigma ,}︰
- σ=1N∑i=1N(xi−x¯)2{displaystyle sigma ={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-{overline {x}})^{2}}}}
σ=14∑i=14(xi−x¯)2{displaystyle sigma ={sqrt {{frac {1}{4}}sum _{i=1}^{4}(x_{i}-{overline {x}})^{2}}}}(N=4){displaystyle (N=4)}
σ=14∑i=14(xi−7)2{displaystyle sigma ={sqrt {{frac {1}{4}}sum _{i=1}^{4}(x_{i}-7)^{2}}}}(x¯=7){displaystyle ({overline {x}}=7)}
- σ=14[(x1−7)2+(x2−7)2+(x3−7)2+(x4−7)2]{displaystyle sigma ={sqrt {{frac {1}{4}}left[(x_{1}-7)^{2}+(x_{2}-7)^{2}+(x_{3}-7)^{2}+(x_{4}-7)^{2}right]}}}
- σ=14[(5−7)2+(6−7)2+(8−7)2+(9−7)2]{displaystyle sigma ={sqrt {{frac {1}{4}}left[(5-7)^{2}+(6-7)^{2}+(8-7)^{2}+(9-7)^{2}right]}}}
- σ=14((−2)2+(−1)2+12+22){displaystyle sigma ={sqrt {{frac {1}{4}}left((-2)^{2}+(-1)^{2}+1^{2}+2^{2}right)}}}
- σ=14(4+1+1+4){displaystyle sigma ={sqrt {{frac {1}{4}}left(4+1+1+4right)}}}
- σ=104{displaystyle sigma ={sqrt {frac {10}{4}}}}
σ≈1.58114{displaystyle sigma approx 1.58114,!}(此為標準差)
常態分佈的規則
在實際應用上,常考慮一組數據具有近似於常態分佈的機率分佈。若其假設正確,則約68%數值分佈在距離平均值有1個標準差之內的範圍,約95%數值分佈在距離平均值有2個標準差之內的範圍,以及約99.7%數值分佈在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」。
- f(x;μ,σ2)=1σ2πe−12(x−μσ)2{displaystyle f(x;mu ,sigma ^{2})={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}}}
- Proportion=erf(z2){displaystyle {text{Proportion}}=operatorname {erf} left({frac {z}{sqrt {2}}}right)}
Proportion≤x=12[1+erf(x−μσ2)]=12[1+erf(z2)]{displaystyle {text{Proportion}}leq x={frac {1}{2}}left[1+operatorname {erf} left({frac {x-mu }{sigma {sqrt {2}}}}right)right]={frac {1}{2}}left[1+operatorname {erf} left({frac {z}{sqrt {2}}}right)right]}.[1]
數字比率 標準差值 | 機率 | 包含之外比例 | |
---|---|---|---|
百分比 | 百分比 | 比例 | |
0.318 639σ | 25% | 75% | 3 / 4 |
0.318 639σ | 25% | 75% | 3 / 4 |
0.674490σ | 50% | 50% | 1 / 2 |
0.994458σ | 68% | 32% | 1 / 3.125 |
1σ | 68.2689492% | 31.7310508% | 1 / 3.1514872 |
1.281552σ | 80% | 20% | 1 / 5 |
1.644854σ | 90% | 10% | 1 / 10 |
1.959964σ | 95% | 5% | 1 / 20 |
2σ | 95.4499736% | 4.5500264% | 1 / 21.977895 |
2.575829σ | 99% | 1% | 1 / 100 |
3σ | 99.7300204% | 0.2699796% | 1 / 370.398 |
3.290527σ | 99.9% | 0.1% | 1 / 1,000 |
3.890592σ | 99.99% | 0.01% | 1 / 10,000 |
4σ | 99.993666% | 0.006334% | 1 / 15,787 |
4.417173σ | 99.999% | 0.001% | 1 / 100,000 |
4.5σ | 99.9993204653751% | 0.0006795346249% | 1 / 147,159.5358 3.4 / 1,000,000 (每一邊) |
4.891638σ | 99.9999% | 0.0001% | 1 / 1,000,000 |
5σ | 99.9999426697% | 0.0000573303% | 1 / 1,744,278 |
5.326724σ | 99.99999% | 0.00001% | 1 / 10,000,000 |
5.730729σ | 99.999999% | 0.000001% | 1 / 100,000,000 |
6σ | 99.9999998027% | 0.0000001973% | 1 / 506,797,346 |
6.109410σ | 99.9999999% | 0.0000001% | 1 / 1,000,000,000 |
6.466951σ | 99.99999999% | 0.00000001% | 1 / 10,000,000,000 |
6.806502σ | 99.999999999% | 0.000000001% | 1 / 100,000,000,000 |
7σ | 99.9999999997440% | 0.000000000256% | 1 / 390,682,215,445 |
標準差與平均值之間的關係
一組數據的平均值及標準差常常同時作為參考的依據。从某种意义上说,如果用平均值來考量數值的中心的话,則標準差也就是对统计的分散度的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。較確切的敘述為:設X1,⋯,XN{displaystyle X_{1},cdots ,X_{N}}為實數,定義函数:
- σ(μ)=1N∑i=1N(xi−μ)2{displaystyle sigma (mu )={sqrt {{frac {1}{N}}sum _{i=1}^{N}(x_{i}-mu )^{2}}}}
使用微積分或者通过配方法,不難算出σ(μ){displaystyle sigma (mu )}在下面情況下具有唯一最小值:
- μ=x¯{displaystyle mu ={overline {x}}}
几何学解释
从几何学的角度出发,标准差可以理解为一个从n{displaystyle n}维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3{displaystyle X_{1},X_{2},X_{3}}。它们可以在3维空间中确定一个点P=(X1,X2,X3){displaystyle P=(X_{1},X_{2},X_{3})}。想像一条通过原点的直线L=(r,r,r):r∈R{displaystyle L={(r,r,r):rin mathbb {R} }}。如果这组数据中的3个值都相等,则点P{displaystyle P}就是直线L{displaystyle L}上的一个点,P{displaystyle P}到L{displaystyle L}的距离为0,所以标准差也为0。若这3个值不都相等,过点P{displaystyle P}作垂线PR{displaystyle PR}垂直于L{displaystyle L},PR{displaystyle PR}交L{displaystyle L}于点R{displaystyle R},则R{displaystyle R}的坐标为这3个值的平均数:
- R=(x¯,x¯,x¯){displaystyle R=({overline {x}},{overline {x}},{overline {x}})}
运用一些代数知识,不难发现点P{displaystyle P}与点R{displaystyle R}之间的距离(也就是点P{displaystyle P}到直线L{displaystyle L}的距离)是σ3{displaystyle sigma {sqrt {3}}}。在n{displaystyle n}维空间中,这个规律同样适用,把3{displaystyle 3}换成n{displaystyle n}就可以了。
參考資料
^ Eric W. Weisstein. Distribution Function. MathWorld—A Wolfram Web Resource. [2014-09-30].
外部链接
Standard Deviation Calculator,标准差计算器 (英文)
|
|
|
|
Comments
Post a Comment