跳到主要內容

百分之70的美國父母後悔生小孩?

美國《每日新聞》專欄作家連德絲(Ann Landers)有一次問她的專欄讀者:「如果可以重來一次,你還想要生小孩嗎?」她收到將近一萬份答覆,其中約70%讀者回覆:「不要!」難道說70%的父母都後悔有小孩嗎?當然不是。問題出在這是個自發性回應樣本,它不是一個具代表性的樣本。通常對某一議題有強烈感覺的人,尤其是負面感覺,比較會不嫌麻煩地回應。連德絲的結論是有高度偏差的:她的樣本中寧願不要小孩的父母百分比,遠大於全體父母中寧願不要生小孩的百分比。投書及叩應(call-in)意見調查幾乎一定會導致有高度偏差的結果。事實上,只有10%的人曾經叩應回覆意見調查,而這些人可能也會打電話到廣播電台的叩應節目。對於整個人口而言,這些人並不構成具代表性的樣本。
《每日新聞》曾經以隨機抽樣的方式選取若干住在美國的父母詢問對於此問題的看法,結果有91%的父母願意生育子女。這個結果與連德絲所公布的數字大相逕庭。本案例給我們的教訓是「如果你不在乎資料如何取得,你或許會聲稱70%說『不願意』,而事實的真相卻是90%說『願意』。」

參考資料:
David S.Moore著,鄭惟厚譯,《統計,讓數字說話!》,天下遠見出版公司
David S. Moore(2000)《The Basic Practice of Statistics》W. H. Freeman Co.

民意調查的爛樣本
假設有一電視台針對某次選舉實施了一次選前民意調查,調查結果指出將近9成的受訪者願意投給甲候選人。乍聽之下,這位候選人似乎鐵定當選,但還不要高興得太早!可得先確認如下數點: 取得這個統計數字所採用的樣本為何? 採用的樣本是否具有代表性(representative)? 用什麼方法(sampling techniques)取得樣本? 何時抽取的樣本?樣本量(sample size)多大?
為什麼要有上述考量呢?假若此次的選舉地點在台北市,所有具投票權的台北市公民就是標的群體(target population),在這個標的群體當中取得的任一群人都可稱為樣本。
民調若是以台北市住宅電話用戶為抽樣對象進行電話訪問,則此種樣本不具代表性,因為住宅電話用戶不見得都是具有投票權的台北市選民;具有投票權的台北市選民也不見得都是住宅電話用戶,這9成或許只能解釋為台北市住宅電話用戶對甲候選人的支持度罷了。
參考資料:楊志強(民88),統計數字的陷阱,國教輔導,38(3),44-47 頁


便利抽樣的實例
1930年代早期,當時運往歐洲的黃麻是在孟買的碼頭一捆一捆打包的,為了決定黃麻的價格,公司的檢驗人員從每捆黃麻抽樣,然後以所抽出的樣本判定黃麻的品質。他們抽樣的方法是:抽樣人員用一把空心的利刃刺入成捆的黃麻裡,再拔出來,刀心的圓孔裡就會有少量的黃麻。在整個包裝、運輸的過程中,外表的黃麻品質會愈來愈差,而靠近中央的黃麻卻是捆得愈來愈緊,有時候部分還保持著冬天的冰凍狀態。然而,抽樣人員將抽樣刀刺入整捆黃麻的時候,刀子通常會偏向較鬆的地方。使得抽取的樣本整體而言是比較差的部分,因此如由這個機率樣本來判斷,會低估黃麻的實際品質。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司

隨機的意義
如果想要得到好的樣本,自然應設法減低偏差,利用隨機抽樣即可達成目的。事實上,隨機抽樣不等於隨意抽樣,我們所稱「隨機」,必須符合以下情況的現象:確實的結果事前無法預知。雖無法預知結果,但需有可預測的長期趨勢,且可以用很多次試驗結果的分配來描述。
對於多數人而言,「隨機」只是不可預測(unpredictability)的另一種說法。例如簽注樂透中頭獎是隨機的。根據定義,沒有人能預知只會隨機出現的東西。但是對當代科學家而言,隨機的類型有很多種。隨機事件擁有一種可用數學描述的結構,而不再是全然雜亂、無法預期且不能預測的。機率分配(probability distribution)的觀念讓我們能對這個隨機性有某種程度的理解,使我們可以對即將發生的隨機事件,做某種程度的預測。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司

杭州靈隱寺的羅漢
據說杭州靈隱寺的羅漢堂內有800 尊羅漢,神態各異,遊客可以選擇任何一尊神像作為起點,隨便向左或向右數,數到自己的年齡數字停止,如果那是一尊慈眉善目的羅漢,表示該遊客是一位好性情的人,萬一是一尊棋眉豎目的羅漢,則表示他一位壞脾氣的人。

馬哈拉諾比斯的「隨機」
位於加爾各答的印度總統學院(Presidency College)物理系系主任馬哈拉諾比斯(P. C. Mahalanobis)教授常用先前所述黃麻的例子說明,為什麼便利樣本是不值得完全信任的(這個例子正是他的親身經歷,早先他曾在某鐵路公司服務,該公司負責將黃麻運到碼頭)。
馬哈拉諾比斯的興趣之一,就是如何取得具有適度代表性的資料樣本。他很清楚在許多情況下,要蒐集到所有的量測值,幾乎是不可能的。他提出的作法是隨機樣本:我們可以用一種隨機化的機制,由群體當中選取出個體。由這種隨機樣本得到的資料,非常有可能是不正確的,但是可以利用數理統計學上的定理,判定如何以最佳的方法來抽樣與量測,同時還能確信,長期下來人們得到的資料會比其他任何資料更接近真值。不僅如此,人們也知道隨機樣本機率分配的數學形式,因此對於想估計的參數真值,可以計算出相關的信賴界限。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
張貼留言

這個網誌中的熱門文章

轉載《再別康橋》 賞析

《再別康橋》賞析
作者: 徐志摩


輕輕的我走了,
正如我輕輕的來;
我輕輕的招手,
作別西天的雲彩。

那河畔的金柳,
是夕陽中的新娘;
波光裡的豔影,
在我的心頭蕩漾。

軟泥上的青荇,
油油的在水底招搖;
在康河的柔波裡,
我甘心做一條水草!

那榆蔭下的一潭,
不是清泉,
是天上虹;

陳琳 古詩《飲馬長城窟行》漫談

飲馬長城窟,水寒傷馬骨。
往謂長城吏,慎莫稽留太原卒﹗
官作自有程,舉筑諧汝聲﹗
男兒寧當格鬥死,何能怫郁(ㄈㄨˊ ㄩˋ)筑長城。

長城何連連,連連三千里。
邊城多健少,內舍多寡婦。

作書與內舍,便嫁莫留住。
善待新姑嫜,時時念我故夫子﹗

報書往邊地,君今出語一何鄙﹖
身在禍難中,何為稽留他家子﹖
生男慎莫舉,生女哺用脯。
君獨不見長城下,死人骸骨相撐拄。
結髮行事君,慊慊心意關。
明知邊地苦,賤妾何能久自全﹖

語譯
  第一層(1—8句),寫築城役卒與長城吏的對話:
  讓馬飲水,只得到那長城下山石間的泉眼,那裡的水是那麼的冰冷,都冷傷透及馬骨頭裡。
  一位築城役卒跑去對監修長城的官吏懇求說:你們千萬不要長時間的滯留我們這些來自太原的役卒啊!

白居易的《花非花》究竟是什麽意思

花非花,霧非霧。夜半來,天明去。來如春夢不多時,去似朝雲無覓處。這首唐代著名詩人白居易的《花非花》在五十多年前我讀書的時候就已經於音樂課中學過,至今還沒忘記它的旋律。不過對於詞句的意思卻是不甚了了。最近我著迷台詩宋詞的學習,上網查這首詩的翻譯,發現有多家不同的解讀,詩人的《花非花》到底想說什麼呢?感到十分有趣,特將結果整理與同好分享。
白居易詩不僅以語言淺近著稱,其意境亦多顯露,但這首《花非花》卻句式奇特,且通篇取譬,十分含蓄,甚至迷離,堪稱是中國文學史上最早的朦朧詩的代表,在白詩中確乎是一個特例。因此對於這首詩到底想表達甚麼,充滿好奇。詩取前三字爲題,近乎“無題”。首二句應讀作“花——非花,霧——非霧”,先就給人一種捉摸不定的感覺。“非花”、“非霧”均系否定,卻包含一個不言而喻的前提:似花、似霧。因此可以說,這是兩個靈巧的比喻。語意雙關,富有朦朧美是這首小詞的最大特點。霧、春夢、朝雲,這幾個意象都是朦朧、飄渺的,意象之間又故意省略了銜接,顯出較大的跳躍性,文字空靈,精煉,使人咀嚼不盡,顯示了詩人不凡的藝術功力。但是,從“夜半來,天明去”的敘寫,可知這裏取喻於花與霧,在於比方所詠之物的短暫易逝,難持長久。如果單看“夜半來,天明去”,頗使讀者疑心是在說夢。但從下句“來如春夢”四字,可見又不然了。“夢”原來也是一比。這裏“來”、“去”二字,在音情上有承上啓下作用,由此生發出兩個新鮮比喻。“夜半來”者春夢也,春夢雖美卻短暫,於是引出一問:“來如春夢幾多時?”“天明”見者朝霞也,雲霞雖美卻易幻滅,於是引出一歎:“去似朝雲無覓處”。
  有人主張這首詞通篇都是隱語,主題當是詠官妓。當時各級官府都有一定數目的官妓,供那些官僚們驅使。首句“花非花”是說官妓的容顏如花,但又並非真花。次句“霧非霧”中“霧”字是雙關。借“霧”為“婺”。“婺女”即女宿星。因官妓女性,上應女宿,但又並非雲霧之霧。
“夜半來,天明去”既是詠星,也是說人。語意雙關,而主要是說人。唐宋時代旅客招妓女伴宿,都是夜半才來,黎明即去。因此,她來的時間不多,旅客宛如做了一個春夢。她去了之後,就像清晨的雲,消散得無影無蹤。官妓不同于一般的妓女,更不同于正式的妻子,她們與官僚之間互為依存,但關係又不便十分密切,只能以夜來明去為限,可謂會短別長。元稹有一首詩《夢昔時》,記他在夢中重會一個女子,有句云:“夜半初得處,天明臨去時。”…