圖資電子報第33期：決定樣本大小

June 6, 2006
No. 33
報主：謝寶煖

http://www.lis.ntu.edu.tw/~pnhsieh/epapers/no33.htm

本期主題：決定樣本大小

這期電子報，讓我們一起來讀報。

台灣選舉頻繁，有個家庭又頻頻出ㄘㄟˊ，所以電視新聞、廣播、報紙經常都會出現「最新民意調查發現……」；通常記者在報導這類民意調查時都會交代「這次調查成功訪問了847位成年人……在95%的信心水準下，抽樣誤差在正負3.4個百分點以內。」這句話是什麼意思呢？就從樣本說起吧。

>> 樣本

因為想要研究的母群太大或是不可知（如無法針對所有台灣合格選民或是北高兩市的合格選民一一訪查），或考量成本效益，只能自母群(population)中抽出一個較小的樣本(sample)，然後從樣本的個案收集所需的資料，經由對樣本的研究與了解來推論母群的情況。這就是推論統計做的事－－從樣本推論到母群。

怎麼知道所抽取的樣本真的能夠有效地反映母群呢？從母群中抽取樣本時，必需使樣本具代表性，推論母群情況時才不致有太大的誤差。要抽取具有代表性的樣本，必須同時兼顧樣本的品質與樣本大小。樣本的品質取決於選取樣本的過程，關鍵是「不偏」和「獨立」；不偏是指母群中的每個個體被選中的機會都一樣；獨立是指一個個體被選中，不會影響其他個體被選中。所以抽樣方法很重要。

要得到有意義的結果，該抽取多大的樣本呢？

p p

>> 決定樣本大小

決定樣本大小要考慮兩個因素：信心水準和抽樣誤差。

信心水準(confidence level)：信心水準是以百分比來表示，意思是有多大的信心可以樣本來推論母群。通常是設定在95％或99％，換包話說，通常是在95％的信心水準或是99％的信心水準下，由樣本推論到母群；而大部分的研究人員都選用95％的信心水準。

抽樣誤差(confidence interval)：或稱為誤差容忍度，一般在媒體或是學術論文中都是以正負數值來表示，如：抽樣誤差在正負3個百分點以內。因為是由樣本推論到母群，勢必有誤差，研究者可以容忍多大的誤差，就是所謂的confidence interval。為脫離台灣的政治風暴，就犧牲布希總統吧！

「最新民意調查顯示，美國總統布希在紐約州的聲望，從先前的百分之三十三跌到最低點的百分之二十二。這項調查是以電話訪問一千一百五十四位合格選民，誤差率是正負百分之三。」這個意思是：抽樣1,154位合格選民的結果，布希的聲望是22％；要由這1,154位合格選民推論到全紐約州合格選民的話，布希的聲望會是19％到25％之間，因為抽樣誤差是3％，那麼推論到母群的話就要往上往下調整3％，即19％（22-3）和25％（22＋3）。

決定好信心水準和抽樣誤差，接下來就要計算樣本數了。這件事就交給網路吧！

p p

>> Sample Size Calculator

Sample Size Calculator是Creative Research Systems在網路上提供的服務，只要點選信心水準（95％或是99％），輸入抽樣誤差和母群人數，就可以算出樣本大小。

舉個例子來說明，如果想要調查台大學生的金錢觀，根據台灣大學2003統計年報台大共有29,830位學生，如果要針對台大學生進行抽樣，在95％信心水準和抽樣誤差在正負3個百分點以內時，必須抽取1,030位學生為樣本。

如果放寬抽樣誤差為5個百分點的話，只要抽取379位學生即可。如果提高信心水準為99％，抽樣誤差一樣是5個百分點的話，必須抽取651位學生；如果信心水準是99％，而抽樣誤差提高到3個百分點以內的話，則必須抽取1,741位學生為樣本。

當母群未知或母群很大時，Population一欄可以直接空白。
如果我想擴大範圍調查全台灣大學生的金錢觀，那我該抽取多少樣本呢？根據教育部網站94學年度大學本科生人數為938,648，在95％信心水準和抽樣誤差在正負3個百分點以內時，必須抽取1,066位學生為樣本；如果我把Population一欄空白，計算得到的樣本數是1,067。

在進行問卷調查時，別忘了還要考慮樣本回收率，再決定該寄發多少份問卷，不然回收率太低的話，還是沒有辦法滿足樣本規模的要求。

>> 調整抽樣誤差

天下不如意事常十之十一、十二。所以呢，就算計算好樣本數再進行抽樣，可是回收率和訪問結果還是可能不能盡如人意，這時通常會根據實際回收結果重新計算抽樣誤差。

接續上面的例子，在95％信心水準和抽樣誤差在正負3個百分點以內時，必須抽取1,030位學生為樣本。如果實際回收的有效問卷是666份，很顯然的抽樣誤差就不可能維持在正負3％以內，所以必須重新計算抽樣誤差。

Sample Size Calculator的第二部分就是計算抽樣誤差，只要選取信心水準，再輸入樣本數和母群大小，就可以計算出新的抽樣誤差為3.75。其中Percentage一項的預設值是50，是要反映樣本的差異或離散情形；舉例來說，如果有99％的學生都回答「是」，只有1％回答「否」，表示樣本的一致性相當高，那麼與樣本大小就沒什麼關係；如果有52％的學生說「是」，而有48％的學生說「否」，那麼誤差的機會就大多了；所以Sample Size Calculator做最悲觀的假設，將Percentage預設為50。

這也就是為什麼我們經常看到媒體或學術論文所交代的抽樣誤差經常是「百分之三點四」或「百分之三點四五」，而不是整數的原因。

>> 結語

試試吧！計算樣本數和抽樣誤差，真的很簡單！
看學生的論文時，經常會看到發放100份問卷或是200份問卷，接下來就根據回收的問卷資料非常努力地進行各項統計分析，敘述統計都OK，可是如果要用到推論統計時，那可就有待商榷了；論文都寫好了，我怎麼說得出口。以往要計算樣本數還真是有點小複雜，自己是用Excel來算，現在有網站幫我們算，就讓我們一起變專業吧！Pro!