在中國,夫妻結婚多年如果無子,往往祈求於「送子觀音」。在西方則祈求鸛鳥來臨。西方人視鸛鳥為「送子鳥」,他們相信凡是有鸛鳥在屋頂築巢的人家必定人丁興旺。因此在德國和荷蘭,很多人家特別在屋頂上釘許多木圈,歡迎「送子鳥」來築巢。
事實上,鸛鳥數與人口數成正相關並非兩者間有因果關係,如果這種現象視為鸛鳥確實會送子將是一大誤解,如果為了控制人口成長而大量捕殺鸛鳥,更是一項令鸛鳥啼笑皆非的悲劇。其實人口多的地區,自然嬰兒出生多,房屋數目也較多,因而有較多屋頂供鸛鳥築巢。因此在兩變數間是否有因果關係,實在有賴常識的協助。
相關係數的起源
在19世紀末葉,有人問著名英國生物統計學家高騰爵士( Sir Francis Galton, 1822-1911)關於雙親身高與子女身高這兩組資料之間的關係是否可以測度?他想出了「相關」的觀念。經由簡單的代數運算,我們可以證得群體相關係數的數值介於1與+1之間,0值表示沒有直線關係存在,+1表示數據應在正斜率的直線上, 1 表示數據在負斜率的直線上,在附近的相關係數表示兩變數有相當高的直線關係,接近0 的相關係數表示兩變數沒有直線關係。在例5.1 中,大約為0.9。注意是直線關係的測度,資料可能形成一團,這時值會很小,它們雖不是直線相關,但無疑是相關的。
相關性的濫用
資料分析者常犯的一項錯誤是「在未查證確定變數間的關係之前,就斷然將所觀察到的相關認定為是因果關係」。例如,19世紀的一些科學家以人的頭顱大小及形狀來判斷一個人的聰明才智以及是否有犯罪傾向;20世紀初的某些科學家又以粗糙的智力測驗成績來判斷一個人是否為「低能」,都是對「相關性」與因果關係的一些誤解或濫用。又如在1960年代,曾經有位美國社會學家研究美國中部小鎮的教堂數量與該鎮的犯罪率的關係。研究結論顯示,犯罪率與教堂數量呈正相關。換句話說,教堂愈多的地方犯罪率愈高,反之亦然。但是到底是由於犯罪率高,促使宗教人士大設教堂?還是教堂過多,告解便利,導致犯罪率上揚?這個問題始終沒有一個確切的答案。
姓氏字母多的候選人必勝?
迴歸分析固然不是完美無缺,但是在預測上卻比其他方法好。在1960年的時候,有一作家發現一種預測總統大選結果的簡單方法:姓氏字母多的候選人必然會獲勝。他用這種方法以自1876至1960年的22次的結果來驗證,結果只有一次不符,看起來這方法很不錯。但是這方法對於1964至2000年的9次選舉,其中有2次兩人的姓氏字母一樣多,就是1980年的雷根(Reagan)和卡特(Carter)以及2000 年的小布希(Bush)與高爾(Gore),其餘的7 次中,有5 次是姓氏字母多的候選人落選。
事實上,鸛鳥數與人口數成正相關並非兩者間有因果關係,如果這種現象視為鸛鳥確實會送子將是一大誤解,如果為了控制人口成長而大量捕殺鸛鳥,更是一項令鸛鳥啼笑皆非的悲劇。其實人口多的地區,自然嬰兒出生多,房屋數目也較多,因而有較多屋頂供鸛鳥築巢。因此在兩變數間是否有因果關係,實在有賴常識的協助。
相關係數的起源
在19世紀末葉,有人問著名英國生物統計學家高騰爵士( Sir Francis Galton, 1822-1911)關於雙親身高與子女身高這兩組資料之間的關係是否可以測度?他想出了「相關」的觀念。經由簡單的代數運算,我們可以證得群體相關係數的數值介於1與+1之間,0值表示沒有直線關係存在,+1表示數據應在正斜率的直線上, 1 表示數據在負斜率的直線上,在附近的相關係數表示兩變數有相當高的直線關係,接近0 的相關係數表示兩變數沒有直線關係。在例5.1 中,大約為0.9。注意是直線關係的測度,資料可能形成一團,這時值會很小,它們雖不是直線相關,但無疑是相關的。
相關性的濫用
資料分析者常犯的一項錯誤是「在未查證確定變數間的關係之前,就斷然將所觀察到的相關認定為是因果關係」。例如,19世紀的一些科學家以人的頭顱大小及形狀來判斷一個人的聰明才智以及是否有犯罪傾向;20世紀初的某些科學家又以粗糙的智力測驗成績來判斷一個人是否為「低能」,都是對「相關性」與因果關係的一些誤解或濫用。又如在1960年代,曾經有位美國社會學家研究美國中部小鎮的教堂數量與該鎮的犯罪率的關係。研究結論顯示,犯罪率與教堂數量呈正相關。換句話說,教堂愈多的地方犯罪率愈高,反之亦然。但是到底是由於犯罪率高,促使宗教人士大設教堂?還是教堂過多,告解便利,導致犯罪率上揚?這個問題始終沒有一個確切的答案。
姓氏字母多的候選人必勝?
迴歸分析固然不是完美無缺,但是在預測上卻比其他方法好。在1960年的時候,有一作家發現一種預測總統大選結果的簡單方法:姓氏字母多的候選人必然會獲勝。他用這種方法以自1876至1960年的22次的結果來驗證,結果只有一次不符,看起來這方法很不錯。但是這方法對於1964至2000年的9次選舉,其中有2次兩人的姓氏字母一樣多,就是1980年的雷根(Reagan)和卡特(Carter)以及2000 年的小布希(Bush)與高爾(Gore),其餘的7 次中,有5 次是姓氏字母多的候選人落選。
留言