2013年10月25日 星期五

為什麼「標準誤」(對一母體抽n個樣本所得到的平均數的抽樣機率分布的標準差)等於 σ/n1/2?

首先要了解一些符號跟名詞的定義,這些符號跟名詞的定義都很簡單,所以我一開始覺得很無聊,就沒有刻意去記。沒想到這個些符號跟名詞雖然一開始定義的時候很簡單,但到後面推論一些複雜的東西的時候卻超級有用!所以一定要好好搞懂。
首先是「X」(或其他大寫字母),代表「隨機變數」,而所謂「隨機變數」,例如,「身高」,就是一個會隨著你觀察的個體(每一個人)而改變其值(而形成一個個「觀察值」也就是「每個人的身高」)的變數。其他「隨機變數」的例子有:體重、溫度、骰子的點數、硬幣正面或反面、樂透開獎的號碼……。因此,隨機變數「並不是一個常數」,而是用一個符號來代表「所有的『變數』(觀察值,或觀察的個體的某項特性)裡面任何一個」(也就是隨機抽一個變數)。
接下來是「x」(或其他小寫斜體字母),代表的就是一個具體而特定的「事件」(觀察值)了。例如大雄的身高、靜香的體重、昨天的溫度、第三次骰子的點數、第八次硬幣是正面還是反面、上一期樂透開獎的號碼。
而一個「隨機變數」X,其各個可能的「事件」(x),我們就分別編號取名叫做x1x2x3,……,xn。例如我們可以定「骰子的點數1」為x1,「骰子的點數2」為x2,「骰子的點數3」為x3……
接著是E(X),代表的則是「隨機變數X的『平均數』」,例如若X代表身高,則E(X)就是每一個人的身高的平均數,也就是所有人的身高的總和除以總人數。
因此,E(X)就等於∑(x)1/N,(或是 x1/N,先求總和再除以個數,跟先除以個數再相加起來,是一樣的,後者等於是先把每個人的身高「乘以自己在所有人當中所佔的比例,也就是1/N」,再求總和,也就是加權平均)。
不過這裡有個陷阱,那就是如果有兩個人的身高剛好一樣的話(先簡單把身高當成不連續變數),我們都會用同一個符號(例如x168)來代表「這個身高數值」(事件)。所以,在求平均的時候,我們必須把這個事件的值(xi)「乘以發生的次數」(加權),然後再在加起來之後「或之前」除以總個數。
若我們在把這個事件的值(x)「乘以這個事件發生的次數」之後,又在加起來求總和之前「除以總個數」,就相當於把這個事件的值(x)「乘以這個事件的發生次數在所有事件的總發生次數中所佔的比例」,也就是求「加權平均」。
「某事件x發生次數在所有事件的總發生次數中所佔的比例」,其實就是這件事情發生的「機率」。(擲骰子點數出現3的機率是事件3在所有事件{123456}中所佔個數的比例,也就是1/6)。
每一個特定的事件x都有特定發生的機率,這種「一對一(或多對一)的關係」,我們可以用一個「函數」來表達。
所以,我們把特定的事件x發生的機率(佔所有事件的比例)記為fX(x),(f下標的大寫X代表這個機率(密度)函數是屬於X這個隨機變數的)。
把任何一個屬於隨機變數Xx 帶入fX(x)這個函數,我們就可以得到x發生的機率,所以,我們稱fX(x)為「隨機變數X的機率函數」。
(若隨機變數X為連續變數,則稱fX(x)為「機率『密度』函數」,因為其代表的不是機率,而是機率密度,機率密度之下的面積才是「某段x的範圍」所發生的機率)。
不用多說, fX(x)當然等於1,因為所有事件發生的機率加起來一定要等於1
所以,我們現在可以將
x1/N
修改為
E(X)xfX(x)
這個式子的涵義是,隨機變數X的平均數,就等於每個事件x的值乘以其發生的機率fX(x)
(若隨機變數X為連續變數,則E(X)xfX(x) dx
。。。。。。。。。。
講到這邊,各位一定覺得統計家實在很機車,平均數不是小學生都會算嗎?幹嘛搞得這麼複雜呢?我一開始也是這麼認為,所以這部分都稍微瀏覽一下而已,等到眼看終於要知道「為什麼『標準誤』(對一母體抽n個樣本所得到的平均數的抽樣機率分布)等於 σ/n1/2?」的時候,卻卡住了看不懂!於是只好從頭把上面那些東西搞清楚,再加上游鎮瑋同學指點迷津,才終於搞懂……
第一,其實E(X)除了代表平均數以外,更重要的涵義是代表了隨機變數X的「期望值」。也就是如果我從隨機變數X裡隨便抽一個x出來(當然是隨機抽,這也是「隨機變數」的之所以叫),我們預期x大概會接近E(X)。若抽了很多次,再把每一次的結果平均,就更預期會是E(X)。若把所有的母體都抽完,再求平均,這個平均當然就是E(X)了。
第二,叫我們算全班身高的平均、骰子點數的平均(期望值)、台灣溫度的平均(期望值),我們還很容易直接算,因為我們確切知道這些隨機變數裡每一個事件(觀察值)的數值及個數(機率)。但有的時候(特別是當隨機變數是「連續的」的時候),我們無法知道某個隨機變數X的每一個事件(觀察值)的數值及機率,而是只知道這個隨機變數X的機率(密度)分布的函數fX(x)(例如二項分布、常態分布等等),這時,我們就只能用
E(X)xfX(x)E(X)xfX(x) dx
這兩個式子來求平均值(期望值)了!
第三,更重要的是,E(X)有一些運算的性質,學會了之後,居然就可以讓我們求出「標準誤」(對一母體抽n個樣本所得到的平均數的抽樣機率分布)等於 σ/n1/2了呢!
首先,我們知道若有一個隨機變數X,我們就可以用上面的公式算他的平均數E(X)。但如果我們今天有另外一個隨機變數,他是X經由某個一對一(或多對一)函數g(X)所算出來的(例如若g(X)3X+2,那麼新的隨機變數就等於3X+2,也就是假設當隨機變數X3的時候,新的隨機變數就是g(3)=3(3)+2=11),那麼,我們可不可以透過g(X)X的這層對應關係,去算出g(X)的平均數E[g(X)]呢?
可以的,運算過程如下:
。。。。。。。。。。
l   我們先把這「X透過g(X)所轉換而來的新隨機變數」叫作Y
所以
g(X)
的平均數E[g(X)]=E(Y)
l   又根據我們上面介紹計算任一隨機變數平均值的公式(E(X)xfX(x)),
所以
E(Y)=y
fY(y)
l   又因為隨機變數Y的每一個值都是透過Y=g(X)所轉換而來的,所以對於每一個可能的x值及每一個可能的y值而言,也都會符合y=g(x)
所以
y
就是g(x)
l   fY(y) 的意思就是「隨機變數Y等於y的機率,也就是y發生的機率」(P(Y=y))。我們知道,每一個y都是x透過g(x)這個函數所算出來的,所以我們可以透過
「求解令y=g(x)x」,
來找出任何一個y是來源於哪一(些)個x事件,
因此,任何一個y發生的機率,就是這個x事件發生的機率(若只有一個x對應到這個y),或「所有對應到這個y的『那些x事件』」發生的機率,也就是把那些x事件的機率都加起來
l   綜合以上兩點,我們就可以知道
E(Y)=y
fY(y)
         =g(x)fX(x)
(假設x1x2代入y=g(x)都得到同一個值y1
也就是說g(x1)=g(x2)=y1
那麼y1發生的機率fY(y1)就等於x1x2發生的機率fX(x1)+fX(x2)
那麼y1fY(y1)就會等於[g(x1)g(x2)][fX(x1)+fX(x2)]
也就等於g(x1)fX(x1) + g(x2)fX(x2)
所以yfY(y) = g(x)fX(x)才成立!)
l   所以,隨機變數X的平均數E(X)xfX(x)
隨機變數X的函數g(X)的平均數E[g(X)]= ∑g(x)fX(x)
。。。。。。。。。。
有了以上的公式,我們就可以算最簡單的線性函數g(X)=aX+b的平均數E[aX+b]了!
這樣一個函數就相當於把隨機變數X的每一個x都乘以a倍,然後再加上b,去得到一個新的隨機變數Y。這個新的隨機變數Y的平均數是多少呢?
l   我們把g(X)=aX+b代入E[g(X)]= ∑g(x)fX(x)就會得到
E[aX+b]= ∑(ax+b)
fX(x)
             = ∑ax
fX(x) + ∑bfX(x)
             = ax
fX(x) + b fX(x)      xfX(x)=E(X) fX(x)=1
             = aE(X)+ b
l   所以,隨機變數X的線性函數g(X)=aX+b的平均數E[aX+b] =aE(X)+ b
l   這個公式的觀念是,如果我們把隨機變數X的「每一個x都乘以a倍」,然後再加上b,而得到一個新的隨機變數Y,這個新的隨機變數Y的平均數就等於原本隨機變數X的平均數乘以a倍,然後再加上b
l   例如今天班上每個同學都進入小叮噹的縮小隧道縮小成原來的五分之一,然後每個人的腳又不知道為什麼都變長了6公分,這時我們想要知道新的平均身高,根本不用重新測量每個人,只要用原本全班身高的平均數除以5,再加上6就可以了!
。。。。。。。。。。
接下來要證明的一個公式看起來非常廢,但到後面用起來卻很好用。
前面說過,若我們把隨機變數X,經過函數g(X)轉換而成新的隨機變數Y,我們可以透過E[g(X)]= ∑g(x)fX(x)來計算Y的平均數E(Y)
但今天如果我們是分別把X經過函數g(X)及函數h(X)轉換,再把轉換後的g(X)h(X)加起來,才得到一個新的隨機變數,那麼我們要怎麼計算新的隨機變數的平均數E[g(X)+h(X)]呢?
l   我們假設g(X)+h(X)i(X)
又根據公式E[g(X)]= ∑g(x)fX(x)
l   E[g(X)+h(X)]= E(i(X))= ∑ i(x)fX(x)
                                     = ∑ [g(x)+h(x)]
fX(x)
                                     = ∑ g(x)
fX(x)+ ∑h(x)fX(x)
                                     = E[g(X)]+ E[h(X)]
l   E[g(X)+ h(X)]= E[g(X)]+ E[h(X)]
E[g(X)- h(X)]= E[g(X)]- E[h(X)]
(證明同上)
意思是,兩個(以上的)函數「和」的「平均數」就等於個別函數「平均數」的「和」(「差」也是一樣)。
。。。。。。。。。。
我們已經定義了隨機變數X的平均數E(X),接下來我們再定義「隨機變數X的『變異數』」為Var(X)
所謂「變異數」,代表的是「『隨機變數X與平均數μXE(X))的距離的平方』的平均數」,用我們剛剛學會的E( )符號來表示,就是
l   Var(X)= E[(X- μX)2]
l   g(X)= (X-μX)2,則E[(X- μX)2]= ∑ (xX)2fX(x)
但是這個公式不好用,我們可以導另一個公式
l   Var(X)= E[(X-μX)2]= E{[X- E(X)]2}        μX= E(X),是一個常數!)
                                =E{X2- 2X
E(X)+ [E(X)]2}
l   X2= g(X)2X+ [E(X)]2= h(X)
則根據E[g(X)+ h(X)]= E[g(X)]+ E[h(X)]
E[aX+b] =aE(X)+ b
l   E{X2- 2XE(X)+ [E(X)]2}= E(X2)- 2E(X)E(X)+ [E(X)]2
                                                          
= E(X2)- 2[E(X)]2+ [E(X)]2
                                                           = E(X2)- [E(X)]2
l   Var(X)= E(X2)- [E(X)]2
。。。。。。。。。。
如同前面我們算出g(X)的平均數E[g(X)]的公式,以及最簡單的線性函數aX+b(也就是把隨機變數X的每一個x都乘以a再加b)的平均數E(aX+b)= aE(X)+b(相當於原來的平均數乘以a再加b)。
接著,我們也要來計算g(X)的變異數Var[g(X)]
l   根據公式Var(X)= E(X2)- [E(X)]2
我們換個代號,把公式裡的X換成Y,以免混淆,但意思是一樣的
Var(Y)= E(Y2)- [E(Y)]2
Y= g(X)
l   Var[g(X)]= E[g2(X)]- {E[g((X)]}2
                =
後面的公式對這篇文章的最終目的不重要,有興趣可以自己推導
。。。。。。。。。。
終於我們來到臨門一腳!來計算線性函數aX+b的變異數Var(aX+b)
為什麼我們要算這個?因為我們想知道,如果把隨機變數X的每一個x都乘以a再加b,形成一個新的隨機變數,則新的隨機變數的變異數跟原本的變異數有甚麼關係?(我們已經知道新的平均數等於原來的平均數乘以a再加b
l   根據Var[g(X)]= E[g2(X)]- {E[g((X)]}2
l   Var(aX+b)= E[(aX+b) 2]- [E(aX+b)]2
                  = E(a2X2+ 2abX+ b2)- [aE(X)+b]2
                  = [a2E(X2)+ 2abE(X)+ b2]- {a2[E(X)] 2+ 2abE(X)+ b2}
                  = a2{E(X2)- [E(X)]2}
                  = a2Var(X)
l   Var(aX+b)= a2Var(X)
這個公式的意思是說,如果我們把隨機變數X的每一個x都乘以a再加b,形成一個新的隨機變數,則「新的隨機變數的變異數」就是「原本的變異數乘以a2」!
首先我們知道,當把隨機變數X的每一個x都乘以a再加b之後,新的平均數也跟著所有的x一樣,是原來的平均數乘以a再加b
而因為變異數就是「『隨機變數X與平均數的距離的平方』的平均數」,所以若每個隨機變數X的每一個x以及平均數都一起乘以a再加b,則新的隨機變數與新的平均數的距離會變成a倍,平方之後就變成a2,所以新的變異數就會是原本的變異數的a2倍!
。。。。。。。。。。
接著終於要進入重點,也就是當我們從隨機變數X中抽取nx,並計算這些抽出來的x的平均數,記為x(那一槓bar應該在x上面才對)。如果我們這樣做了無限多次,想當然爾會得到各式各樣的x,理論上我們同樣也可以算這些x的平均數及變異數。
但等等,首先,我們抽了無限多次的nx,因此也有無限多個x,這樣是要怎麼算平均數及變異數?
再來,若隨機變數X是連續的,則這些x也會是連續的,也就是說,x等於任何特定一個值的機率都是0,那我們要怎麼算平均數及變異數?
這時,剛剛學到的所有概念,就可以派上用場了!
首先,因為x也是個隨機變數,所以我們可以用大寫的字母X來代表一個隨機變數,而這個隨機變數X的值可能是任何一個x
第二,利用我們剛剛學到的「機率(密度)函數」概念,我們可以說任何一個x被抽到的機率(若不連續)或機率密度(若連續)是fX(x)
第三,我們可以用E(X)來表示X的平均數(期望值),並用相應的公式來算出E(X),而不需真的算出無限多個x
第四,我們同樣可以用Var(X)來表示X的變異數,也就是所有的XE(X)的距離的平方的平均數(期望值),並用相應的公式來算出Var(X)
。。。。。。。。。。
我們先來算E(X)
l   首先,若我們把每次抽n個隨機變數X時,第一個抽出來的x給標為x1,第二個抽出來的x給標為x2,第三個抽出來的x標為x3,……,直到最後一個抽出來的x就標為xn
l   因此,隨機變數X的任何一個數值x(某次抽出n個隨機變數X所算出的平均數)就等於(x1+x2+x3+,……,+xn)/n
l   記得我們抽了無數次的n個樣本,所以每次抽出來的n個隨機變數X如下:
1次:x1x2x3,……,xn       x=(x1+x2+x3+,……,+xn)/n
2次:x1x2x3,……,xn       x=(x1+x2+x3+,……,+xn)/n
3次:x1x2x3,……,xn       x=(x1+x2+x3+,……,+xn)/n
 
次:x1x2x3,……,xn         x=(x1+x2+x3+,……,+xn)/n
※注意,x1代表的是每次的「第一個」抽出來的x,不代表一樣的「數值」。每次的x算起來也不一定一樣,只是用相同的符號代表。
l   注意,我們每次抽出來的x1都是從隨機變數X中抽出的,因此也是個平均數(期望值)E(X1)等於E(X),變異數Var(X1)等於Var(X)的隨機變數X1
l   同樣的道理,x2也是個平均數(期望值)E(X2)等於E(X),變異數Var(X1)等於Var(X)的隨機變數X2,其餘類推。
l   另外,所有的x也是一個隨機變數XX1X2X3,……,Xnn個隨機變數的函數,也就是
X=(X1+X2+X3+
……+Xn)/n
l   E(X)= E[(X1+X2+X3+……+Xn)/n]
         = 1/n
E(X1+X2+X3+……+Xn)
         = 1/n
E(X1)+ E(X2)+ E(X3)+……+ E(Xn)
         = 1/n
[E(X)n]
         = E(X)
         = μ
l   E(X)= E(X) 或者μX= μ
亦即所有抽n個樣本所計算出來的平均數(這些平均數的分布叫抽樣分布)的平均數等於母體平均數。
。。。。。。。。。。
接著我們先來算Var(X)
l   Var(X)= Var[(X1+X2+X3+,……,+Xn)/n]
           = (1/n2)
Var(X1+X2+X3+,……,+XnVar(aX+b)= a2Var(X)
           = (1/n2)
[Var(X1)+ Var(X2)+ Var(X3)+,……,+ Var(Xn)]
           = (1/n2)
[Var(X)n]
           = (1/n)
Var(X)
           = σ2/n
          
(其實從第二行跳到第三行需要證Var(X1+X2)= Var(X1)+ Var(X2)
          
但是我前面漏掉了,本來想補證明,
          
但發現又必須先證明E(XY)= E(X)E(Y),我懶了
l   Var(X)= σ2X= σ2/n
亦即「樣本平均數的變異數」等於「母體變異數」除以「樣本大小」
l   而樣本平均數的標準差(標準誤)σX= (σ2X)1/2= σ/n1/2

結論,「標準誤」(對一母體抽n個樣本所得到的平均數的抽樣機率分布的標準差)等於 σ/n1/2

1 則留言:

  1. 強強強!
    想問:x1的變異數是什麼意思?只有自己一項,為什麼依然會有變異數的概念?

    回覆刪除