美國《每日新聞》專欄作家連德絲(Ann Landers)有一次問她的專欄讀者:「如果可以重來一次,你還想要生小孩嗎?」她收到將近一萬份答覆,其中約70%讀者回覆:「不要!」難道說70%的父母都後悔有小孩嗎?當然不是。問題出在這是個自發性回應樣本,它不是一個具代表性的樣本。通常對某一議題有強烈感覺的人,尤其是負面感覺,比較會不嫌麻煩地回應。連德絲的結論是有高度偏差的:她的樣本中寧願不要小孩的父母百分比,遠大於全體父母中寧願不要生小孩的百分比。投書及叩應(call-in)意見調查幾乎一定會導致有高度偏差的結果。事實上,只有10%的人曾經叩應回覆意見調查,而這些人可能也會打電話到廣播電台的叩應節目。對於整個人口而言,這些人並不構成具代表性的樣本。
《每日新聞》曾經以隨機抽樣的方式選取若干住在美國的父母詢問對於此問題的看法,結果有91%的父母願意生育子女。這個結果與連德絲所公布的數字大相逕庭。本案例給我們的教訓是「如果你不在乎資料如何取得,你或許會聲稱70%說『不願意』,而事實的真相卻是90%說『願意』。」
參考資料:
David S.Moore著,鄭惟厚譯,《統計,讓數字說話!》,天下遠見出版公司
David S. Moore(2000)《The Basic Practice of Statistics》W. H. Freeman Co.
民意調查的爛樣本
假設有一電視台針對某次選舉實施了一次選前民意調查,調查結果指出將近9成的受訪者願意投給甲候選人。乍聽之下,這位候選人似乎鐵定當選,但還不要高興得太早!可得先確認如下數點: 取得這個統計數字所採用的樣本為何? 採用的樣本是否具有代表性(representative)? 用什麼方法(sampling techniques)取得樣本? 何時抽取的樣本?樣本量(sample size)多大?
為什麼要有上述考量呢?假若此次的選舉地點在台北市,所有具投票權的台北市公民就是標的群體(target population),在這個標的群體當中取得的任一群人都可稱為樣本。
民調若是以台北市住宅電話用戶為抽樣對象進行電話訪問,則此種樣本不具代表性,因為住宅電話用戶不見得都是具有投票權的台北市選民;具有投票權的台北市選民也不見得都是住宅電話用戶,這9成或許只能解釋為台北市住宅電話用戶對甲候選人的支持度罷了。
參考資料:楊志強(民88),統計數字的陷阱,國教輔導,38(3),44-47 頁
便利抽樣的實例
1930年代早期,當時運往歐洲的黃麻是在孟買的碼頭一捆一捆打包的,為了決定黃麻的價格,公司的檢驗人員從每捆黃麻抽樣,然後以所抽出的樣本判定黃麻的品質。他們抽樣的方法是:抽樣人員用一把空心的利刃刺入成捆的黃麻裡,再拔出來,刀心的圓孔裡就會有少量的黃麻。在整個包裝、運輸的過程中,外表的黃麻品質會愈來愈差,而靠近中央的黃麻卻是捆得愈來愈緊,有時候部分還保持著冬天的冰凍狀態。然而,抽樣人員將抽樣刀刺入整捆黃麻的時候,刀子通常會偏向較鬆的地方。使得抽取的樣本整體而言是比較差的部分,因此如由這個機率樣本來判斷,會低估黃麻的實際品質。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
隨機的意義
如果想要得到好的樣本,自然應設法減低偏差,利用隨機抽樣即可達成目的。事實上,隨機抽樣不等於隨意抽樣,我們所稱「隨機」,必須符合以下情況的現象:確實的結果事前無法預知。雖無法預知結果,但需有可預測的長期趨勢,且可以用很多次試驗結果的分配來描述。
對於多數人而言,「隨機」只是不可預測(unpredictability)的另一種說法。例如簽注樂透中頭獎是隨機的。根據定義,沒有人能預知只會隨機出現的東西。但是對當代科學家而言,隨機的類型有很多種。隨機事件擁有一種可用數學描述的結構,而不再是全然雜亂、無法預期且不能預測的。機率分配(probability distribution)的觀念讓我們能對這個隨機性有某種程度的理解,使我們可以對即將發生的隨機事件,做某種程度的預測。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
杭州靈隱寺的羅漢
據說杭州靈隱寺的羅漢堂內有800 尊羅漢,神態各異,遊客可以選擇任何一尊神像作為起點,隨便向左或向右數,數到自己的年齡數字停止,如果那是一尊慈眉善目的羅漢,表示該遊客是一位好性情的人,萬一是一尊棋眉豎目的羅漢,則表示他一位壞脾氣的人。
馬哈拉諾比斯的「隨機」
位於加爾各答的印度總統學院(Presidency College)物理系系主任馬哈拉諾比斯(P. C. Mahalanobis)教授常用先前所述黃麻的例子說明,為什麼便利樣本是不值得完全信任的(這個例子正是他的親身經歷,早先他曾在某鐵路公司服務,該公司負責將黃麻運到碼頭)。
馬哈拉諾比斯的興趣之一,就是如何取得具有適度代表性的資料樣本。他很清楚在許多情況下,要蒐集到所有的量測值,幾乎是不可能的。他提出的作法是隨機樣本:我們可以用一種隨機化的機制,由群體當中選取出個體。由這種隨機樣本得到的資料,非常有可能是不正確的,但是可以利用數理統計學上的定理,判定如何以最佳的方法來抽樣與量測,同時還能確信,長期下來人們得到的資料會比其他任何資料更接近真值。不僅如此,人們也知道隨機樣本機率分配的數學形式,因此對於想估計的參數真值,可以計算出相關的信賴界限。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
《每日新聞》曾經以隨機抽樣的方式選取若干住在美國的父母詢問對於此問題的看法,結果有91%的父母願意生育子女。這個結果與連德絲所公布的數字大相逕庭。本案例給我們的教訓是「如果你不在乎資料如何取得,你或許會聲稱70%說『不願意』,而事實的真相卻是90%說『願意』。」
參考資料:
David S.Moore著,鄭惟厚譯,《統計,讓數字說話!》,天下遠見出版公司
David S. Moore(2000)《The Basic Practice of Statistics》W. H. Freeman Co.
民意調查的爛樣本
假設有一電視台針對某次選舉實施了一次選前民意調查,調查結果指出將近9成的受訪者願意投給甲候選人。乍聽之下,這位候選人似乎鐵定當選,但還不要高興得太早!可得先確認如下數點: 取得這個統計數字所採用的樣本為何? 採用的樣本是否具有代表性(representative)? 用什麼方法(sampling techniques)取得樣本? 何時抽取的樣本?樣本量(sample size)多大?
為什麼要有上述考量呢?假若此次的選舉地點在台北市,所有具投票權的台北市公民就是標的群體(target population),在這個標的群體當中取得的任一群人都可稱為樣本。
民調若是以台北市住宅電話用戶為抽樣對象進行電話訪問,則此種樣本不具代表性,因為住宅電話用戶不見得都是具有投票權的台北市選民;具有投票權的台北市選民也不見得都是住宅電話用戶,這9成或許只能解釋為台北市住宅電話用戶對甲候選人的支持度罷了。
參考資料:楊志強(民88),統計數字的陷阱,國教輔導,38(3),44-47 頁
便利抽樣的實例
1930年代早期,當時運往歐洲的黃麻是在孟買的碼頭一捆一捆打包的,為了決定黃麻的價格,公司的檢驗人員從每捆黃麻抽樣,然後以所抽出的樣本判定黃麻的品質。他們抽樣的方法是:抽樣人員用一把空心的利刃刺入成捆的黃麻裡,再拔出來,刀心的圓孔裡就會有少量的黃麻。在整個包裝、運輸的過程中,外表的黃麻品質會愈來愈差,而靠近中央的黃麻卻是捆得愈來愈緊,有時候部分還保持著冬天的冰凍狀態。然而,抽樣人員將抽樣刀刺入整捆黃麻的時候,刀子通常會偏向較鬆的地方。使得抽取的樣本整體而言是比較差的部分,因此如由這個機率樣本來判斷,會低估黃麻的實際品質。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
隨機的意義
如果想要得到好的樣本,自然應設法減低偏差,利用隨機抽樣即可達成目的。事實上,隨機抽樣不等於隨意抽樣,我們所稱「隨機」,必須符合以下情況的現象:確實的結果事前無法預知。雖無法預知結果,但需有可預測的長期趨勢,且可以用很多次試驗結果的分配來描述。
對於多數人而言,「隨機」只是不可預測(unpredictability)的另一種說法。例如簽注樂透中頭獎是隨機的。根據定義,沒有人能預知只會隨機出現的東西。但是對當代科學家而言,隨機的類型有很多種。隨機事件擁有一種可用數學描述的結構,而不再是全然雜亂、無法預期且不能預測的。機率分配(probability distribution)的觀念讓我們能對這個隨機性有某種程度的理解,使我們可以對即將發生的隨機事件,做某種程度的預測。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
杭州靈隱寺的羅漢
據說杭州靈隱寺的羅漢堂內有800 尊羅漢,神態各異,遊客可以選擇任何一尊神像作為起點,隨便向左或向右數,數到自己的年齡數字停止,如果那是一尊慈眉善目的羅漢,表示該遊客是一位好性情的人,萬一是一尊棋眉豎目的羅漢,則表示他一位壞脾氣的人。
馬哈拉諾比斯的「隨機」
位於加爾各答的印度總統學院(Presidency College)物理系系主任馬哈拉諾比斯(P. C. Mahalanobis)教授常用先前所述黃麻的例子說明,為什麼便利樣本是不值得完全信任的(這個例子正是他的親身經歷,早先他曾在某鐵路公司服務,該公司負責將黃麻運到碼頭)。
馬哈拉諾比斯的興趣之一,就是如何取得具有適度代表性的資料樣本。他很清楚在許多情況下,要蒐集到所有的量測值,幾乎是不可能的。他提出的作法是隨機樣本:我們可以用一種隨機化的機制,由群體當中選取出個體。由這種隨機樣本得到的資料,非常有可能是不正確的,但是可以利用數理統計學上的定理,判定如何以最佳的方法來抽樣與量測,同時還能確信,長期下來人們得到的資料會比其他任何資料更接近真值。不僅如此,人們也知道隨機樣本機率分配的數學形式,因此對於想估計的參數真值,可以計算出相關的信賴界限。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
留言