跳到主要內容

百分之70的美國父母後悔生小孩?

美國《每日新聞》專欄作家連德絲(Ann Landers)有一次問她的專欄讀者:「如果可以重來一次,你還想要生小孩嗎?」她收到將近一萬份答覆,其中約70%讀者回覆:「不要!」難道說70%的父母都後悔有小孩嗎?當然不是。問題出在這是個自發性回應樣本,它不是一個具代表性的樣本。通常對某一議題有強烈感覺的人,尤其是負面感覺,比較會不嫌麻煩地回應。連德絲的結論是有高度偏差的:她的樣本中寧願不要小孩的父母百分比,遠大於全體父母中寧願不要生小孩的百分比。投書及叩應(call-in)意見調查幾乎一定會導致有高度偏差的結果。事實上,只有10%的人曾經叩應回覆意見調查,而這些人可能也會打電話到廣播電台的叩應節目。對於整個人口而言,這些人並不構成具代表性的樣本。
《每日新聞》曾經以隨機抽樣的方式選取若干住在美國的父母詢問對於此問題的看法,結果有91%的父母願意生育子女。這個結果與連德絲所公布的數字大相逕庭。本案例給我們的教訓是「如果你不在乎資料如何取得,你或許會聲稱70%說『不願意』,而事實的真相卻是90%說『願意』。」

參考資料:
David S.Moore著,鄭惟厚譯,《統計,讓數字說話!》,天下遠見出版公司
David S. Moore(2000)《The Basic Practice of Statistics》W. H. Freeman Co.

民意調查的爛樣本
假設有一電視台針對某次選舉實施了一次選前民意調查,調查結果指出將近9成的受訪者願意投給甲候選人。乍聽之下,這位候選人似乎鐵定當選,但還不要高興得太早!可得先確認如下數點: 取得這個統計數字所採用的樣本為何? 採用的樣本是否具有代表性(representative)? 用什麼方法(sampling techniques)取得樣本? 何時抽取的樣本?樣本量(sample size)多大?
為什麼要有上述考量呢?假若此次的選舉地點在台北市,所有具投票權的台北市公民就是標的群體(target population),在這個標的群體當中取得的任一群人都可稱為樣本。
民調若是以台北市住宅電話用戶為抽樣對象進行電話訪問,則此種樣本不具代表性,因為住宅電話用戶不見得都是具有投票權的台北市選民;具有投票權的台北市選民也不見得都是住宅電話用戶,這9成或許只能解釋為台北市住宅電話用戶對甲候選人的支持度罷了。
參考資料:楊志強(民88),統計數字的陷阱,國教輔導,38(3),44-47 頁


便利抽樣的實例
1930年代早期,當時運往歐洲的黃麻是在孟買的碼頭一捆一捆打包的,為了決定黃麻的價格,公司的檢驗人員從每捆黃麻抽樣,然後以所抽出的樣本判定黃麻的品質。他們抽樣的方法是:抽樣人員用一把空心的利刃刺入成捆的黃麻裡,再拔出來,刀心的圓孔裡就會有少量的黃麻。在整個包裝、運輸的過程中,外表的黃麻品質會愈來愈差,而靠近中央的黃麻卻是捆得愈來愈緊,有時候部分還保持著冬天的冰凍狀態。然而,抽樣人員將抽樣刀刺入整捆黃麻的時候,刀子通常會偏向較鬆的地方。使得抽取的樣本整體而言是比較差的部分,因此如由這個機率樣本來判斷,會低估黃麻的實際品質。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司

隨機的意義
如果想要得到好的樣本,自然應設法減低偏差,利用隨機抽樣即可達成目的。事實上,隨機抽樣不等於隨意抽樣,我們所稱「隨機」,必須符合以下情況的現象:確實的結果事前無法預知。雖無法預知結果,但需有可預測的長期趨勢,且可以用很多次試驗結果的分配來描述。
對於多數人而言,「隨機」只是不可預測(unpredictability)的另一種說法。例如簽注樂透中頭獎是隨機的。根據定義,沒有人能預知只會隨機出現的東西。但是對當代科學家而言,隨機的類型有很多種。隨機事件擁有一種可用數學描述的結構,而不再是全然雜亂、無法預期且不能預測的。機率分配(probability distribution)的觀念讓我們能對這個隨機性有某種程度的理解,使我們可以對即將發生的隨機事件,做某種程度的預測。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司

杭州靈隱寺的羅漢
據說杭州靈隱寺的羅漢堂內有800 尊羅漢,神態各異,遊客可以選擇任何一尊神像作為起點,隨便向左或向右數,數到自己的年齡數字停止,如果那是一尊慈眉善目的羅漢,表示該遊客是一位好性情的人,萬一是一尊棋眉豎目的羅漢,則表示他一位壞脾氣的人。

馬哈拉諾比斯的「隨機」
位於加爾各答的印度總統學院(Presidency College)物理系系主任馬哈拉諾比斯(P. C. Mahalanobis)教授常用先前所述黃麻的例子說明,為什麼便利樣本是不值得完全信任的(這個例子正是他的親身經歷,早先他曾在某鐵路公司服務,該公司負責將黃麻運到碼頭)。
馬哈拉諾比斯的興趣之一,就是如何取得具有適度代表性的資料樣本。他很清楚在許多情況下,要蒐集到所有的量測值,幾乎是不可能的。他提出的作法是隨機樣本:我們可以用一種隨機化的機制,由群體當中選取出個體。由這種隨機樣本得到的資料,非常有可能是不正確的,但是可以利用數理統計學上的定理,判定如何以最佳的方法來抽樣與量測,同時還能確信,長期下來人們得到的資料會比其他任何資料更接近真值。不僅如此,人們也知道隨機樣本機率分配的數學形式,因此對於想估計的參數真值,可以計算出相關的信賴界限。
參考資料:David Salsburg 著,葉偉文譯(2001),《統計,改變了世界》,天下遠見出版公司
張貼留言

這個網誌中的熱門文章

轉載《再別康橋》 賞析

《再別康橋》賞析
作者: 徐志摩


輕輕的我走了,
正如我輕輕的來;
我輕輕的招手,
作別西天的雲彩。

那河畔的金柳,
是夕陽中的新娘;
波光裡的豔影,
在我的心頭蕩漾。

軟泥上的青荇,
油油的在水底招搖;
在康河的柔波裡,
我甘心做一條水草!

那榆蔭下的一潭,
不是清泉,
是天上虹;

陳琳 古詩《飲馬長城窟行》漫談

飲馬長城窟,水寒傷馬骨。
往謂長城吏,慎莫稽留太原卒﹗
官作自有程,舉筑諧汝聲﹗
男兒寧當格鬥死,何能怫郁(ㄈㄨˊ ㄩˋ)筑長城。

長城何連連,連連三千里。
邊城多健少,內舍多寡婦。

作書與內舍,便嫁莫留住。
善待新姑嫜,時時念我故夫子﹗

報書往邊地,君今出語一何鄙﹖
身在禍難中,何為稽留他家子﹖
生男慎莫舉,生女哺用脯。
君獨不見長城下,死人骸骨相撐拄。
結髮行事君,慊慊心意關。
明知邊地苦,賤妾何能久自全﹖

語譯
  第一層(1—8句),寫築城役卒與長城吏的對話:
  讓馬飲水,只得到那長城下山石間的泉眼,那裡的水是那麼的冰冷,都冷傷透及馬骨頭裡。
  一位築城役卒跑去對監修長城的官吏懇求說:你們千萬不要長時間的滯留我們這些來自太原的役卒啊!

從胡適的新詩《希望》到《蘭花草》

如果唱起“我從山中來,帶得蘭花草”,相信很多人都能夠接著唱幾句,這首民歌《蘭花草》在若干年前曾經瘋迷一時,為許多年輕人所喜愛。因為它旋律流暢,同時歌詞淺顯易懂。但是很多人都不知道其實這首歌的原始作者竟然是國寶級的大師胡適博士。原詩的名字是《希望》。1921年夏天,胡適的朋友熊秉三夫婦送給胡適一盆蘭花草,胡適歡歡喜喜帶了回來。胡適每天在讀書寫作之餘精心照顧,但直到秋天,也沒有開出花來,於是他有感而發寫了這首小詩。這首詩清新、質樸、深情,對生命的期待與珍惜躍然紙上。胡適給它取名為《希望》。這首小詩《希望》共3闋60字,詩云:
  我從山中來,帶得蘭花草。種在小園中,希望開花好。
        一日望三回,望到花時過;急壞看花人,花苞無一個。
  眼見秋天到,移花供在家,明年春風回,祝汝滿盆花。


後來20世紀八十年代初期被陳賢德和張弼二人修改並配上曲子,同時改名為《蘭花草》,由名歌手劉文正演唱,從而廣為流傳。

《蘭花草》的歌詞如下   我從山中來,帶來蘭花草,種在小園中,希望花開早。
  一日看三回,看得花時過;蘭花卻依然,苞也無一個。
  轉眼秋天到,移蘭入暖房;朝朝頻不息,夜夜不能忘。
 但願花開早,能將宿願償;滿庭花簇簇,開得有多香。 從以上比較可以清楚看出,《蘭花草》歌詞是《希望》一詩稍加增改而成。從立意、內容、文辭到形式,都沒有大的變化。只是為了傳唱的方便,將三段敷衍為四節。作為歌曲,這是可以理解的。由歌詞我們彷彿看到一個朝氣蓬勃的少年從山中帶回一株蘭花草時的滿心歡喜,看到他在精緻的小園中細心呵護的身影,看到他遮掩不住的焦急。清澈達意的文字中能看到那個少年清澈眼眸裡的天真和悵然。

由前述的解說,1921年胡適寫這首小詩的時候,似乎只是一時興起,將當時的感受以詩的形式表達出來,然而為什麼會取名《希望》,則是眾說紛紜,莫衷一是。一說是1919年2月,胡適曾翻譯過另外一首《希望》小詩。而且,妻子江冬秀懷孕在身,兩個月後就要臨產,“希望”預示著新生命的前程。有人認為詩中的“蘭花草”其實是隱喻“德先生與賽先生”,胡適於1917年回北京大學任教時將民主和科學引進中國,然而到了1921年,民主和科學並沒有如他所預期的在中國落地生根,甚至“苞也無一個”。也有人認為“蘭花草”其實是隱喻白話詩,胡適的文學革命是主張以白話取代文言寫詩,它早在1916年開始就不斷實驗以白話寫詩,可惜贊成他的主張的人似…