跳到主要內容

轉載

Data Mining 探索
 前言
資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。它是個神奇又時髦的技術,但卻也不是什麼新東西,因為Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,但是資訊科技的進展超乎想像,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘寶藏,常常能超越歸納範圍的關係;使Data Mining成為企業智慧的一部份。
Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。
本文首先對Data Mining這個新浮現的領域,定義其基本觀念,並探討在此領域中企業的應用現況。接著對於困擾許久的名詞:Data Warehouse、KDD、Data Mining,做深入的分析比較,釐清它們間的關係。最後介紹發展Data Mining的工具與結論。
Data Mining的含義
所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。
資料挖掘既然可以增加企業智慧,提昇企業競爭優勢,到底應該如何進行呢?根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。從八個步驟來看,Data Mining牽涉大量的規劃與準備,而從其他文獻得知,專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。從這個角度看,Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
企業應用現況
Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。
目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。
企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。
資料倉儲、KDD、Data Mining的關係
許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。由於關聯式資料庫、平行處理及分散式資料庫技術的進步,不論是主從式架構或主機型架構的資料庫系統,資料倉儲技術皆可以利用原有作業中或已有的(Legacy)系統,進而提供一個穩固的基礎以支援全公司的決策支援系統(DSS)。
資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。
總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。

留言

這個網誌中的熱門文章

轉載《再別康橋》 賞析

《再別康橋 》 賞析 作者 : 徐志摩     輕輕的我走了, 正如我輕輕的來; 我輕輕的招手, 作別西天的雲彩。   那河畔的金柳, 是夕陽中的新娘; 波光裡的豔影, 在我的心頭蕩漾。   軟泥上的青荇, 油油的在水底招搖; 在康河的柔波裡, 我甘心做一條水草!   那榆蔭下的一潭, 不是清泉, 是天上虹; 揉碎在浮藻間, 沉澱著彩虹似的夢。   尋夢?撐一支長篙, 向青草更青處漫溯; 滿載一船星輝, 在星輝斑斕裡放歌。   但我不能放歌, 悄悄是別離的笙簫; 夏蟲也為我沉默, 沉默是今晚的康橋!   悄悄的我走了, 正如我悄悄的來; 我揮一揮衣袖, 不帶走一片雲彩。      1928.11.6 中國上海   這首《再別康橋》全詩共七節,每節四行,每行兩頓或三頓,不拘一格而又法度嚴謹,韻式上嚴守二、四押韻,抑揚頓挫,朗朗上口。這優美的節奏像漣漪般蕩漾開來,既是虔誠的學子尋夢的跫音,又契合著詩人感情的潮起潮落,有一種獨特的審美快感。七節詩錯落有致地排列,韻律在其中徐行緩步地鋪展,頗有些“長袍白麵,郊寒島瘦” (" 長袍白麵 , 郊寒島瘦”是說孟郊、賈島二人的詩寫得古樸生澀、清奇苦僻,不夠開朗豪放。 ) 的詩人氣度。可以說,正體現了徐志摩的詩美主張。《再別康橋》是一首寫景的抒情詩,其抒發的情感有三:留戀之情,惜別之情和理想幻滅後的感傷之情。   “輕輕的我走了,正如我輕輕的來,我輕輕的招手,作別西天的雲彩。”這節詩可用幾句話來概括:舒緩的節奏,輕盈的動作,纏綿的情意,同時又懷著淡淡的哀愁。最後的“西天的雲彩”,為後面的描寫布下了一筆絢麗的色彩,整個景色都是在夕陽映照下的景物。所以這節詩為整首詩定下了一個基調。 “那河畔的金柳,是夕陽下的新娘,波光裡的豔影,在我心頭蕩漾。”這節詩實寫的是康河的美,同時,柳樹在古詩

從胡適新詩《老鴉》說起

胡適新詩《老鴉》 一 我大清早起, 站在人家屋角上啞啞的啼 人家討嫌我,說我不吉利;── 我不能呢呢喃喃討人家的歡喜!   二   天寒風緊,無枝可棲。 我整日裡飛去飛回,整日裡又寒又饑。── 我不能帶著鞘兒,翁翁央央的替人家飛; 不能叫人家繫在竹竿頭,賺一把小米!   胡適早年自美返國,看到社會上種種不合理的現象,常在演講、為文時提出批評,因此引起很多被批評者的不滿,甚至招來種種打擊。所以他自比為烏鴉,老是啞啞地對著人叫,別人見了牠就大不吉利。烏鴉討人厭,但是胡適卻堅定地說:我不能呢呢喃喃討人家的歡喜!輕柔悅耳,人們都喜歡聽﹔但他卻寧願當烏鴉,不肯阿諛諂媚,討人們歡喜。他要把社會上種種不合理的現象暴露出來,以謀求改善,即使因此而使自己處境惡劣,無枝可棲、又寒又飢,但他也不屈服、不改變,仍然堅定的說 「 我不能帶著鞘兒,翁翁央央的替人家飛、不能叫人家繫在竹竿頭,賺一把黃小米。 」 因為他不是鴿子,也不是小鳥,他本來就是烏鴉,他就是要當烏鴉。這首詩裡的老鴉可以看作是他自己的化身;他借老鴉向世人宣示─不管你們喜不喜歡,我還是堅持說我該說的話;不管處境如何困難,我還是堅持我該做的事 ! 這種精神正是北宋名臣范仲淹的名言「寧鳴而死,不默而生。」的具體表現 。 為什麼烏鴉討人厭 , 被人認為不吉利呢 ?大師胡適經常說自己有歷史癖,而我則有考據僻 。 喜歡就一些趣味雅(trivia)的小事打破砂鍋追到底 。 經過一番搜尋,發現烏鴉討人厭的理由如下: 除了烏鴉全身烏黑,叫聲嘶啞難聽,而且常常成群結隊地邊飛邊叫,據說烏鴉的嗅覺特別靈敏,人或畜瀕臨死亡,他 ( 牠 ) 的身上就會散發出一種特殊的氣味,烏鴉就聞味而來。可是人們誤解了牠,認爲是牠的到來才造成死亡事件的産生。所以人們認爲烏鴉叫是不祥之兆。   偶然讀到著名唐代詩人杜甫《奉贈射洪李四丈》的詩 ,提到有烏鴉在友人房上叫,他恭維友人道: " 丈人屋上烏,人好烏亦好。 " 元稹的《大嘴烏》詩和白居易《和大嘴烏》詩再再顯示唐人普遍認為烏鴉是吉祥鳥,烏鴉的出現必定帶來喜慶,因而對烏鴉有著熱愛和敬畏的感情。另一方面 ,唐人 認為烏鴉覓食反哺其母,這種行為與儒家思想契合。例如白居易的《慈烏夜啼》對於烏鴉讚賞有加 : " 慈烏失其母,

白居易的《花非花》究竟是什麽意思

    花非花,霧非霧。夜半來,天明去。來如春夢不多時,去似朝雲無覓處。這首唐代著名詩人白居易的《花非花》在五十多年前我讀書的時候就已經於音樂課中學過 ,至今還沒忘記它的旋律 。 不過對於詞句的意思卻是不甚了了。最近我著迷台詩宋詞的學習,上網查這首詩的翻譯,發現有多家不同的解讀,詩人的《花非花》到底想說什麼呢?感到十分有趣,特將結果整理與同好分享 。    白居易詩不僅以語言淺近著稱,其意境亦多顯露,但這首《花非花》卻句式奇特,且通篇取譬,十分含蓄,甚至迷離,堪稱是中國文學史上最早的朦朧詩的代表,在白詩中確乎是一個特例。因此對於這首詩到底想表達甚麼 , 充滿好奇 。 詩取前三字爲題,近乎“無題”。首二句應讀作“花——非花,霧——非霧”,先就給人一種捉摸不定的感覺。“非花”、“非霧”均系否定,卻包含一個不言而喻的前提:似花、似霧。因此可以說,這是兩個靈巧的比喻。語意雙關,富有朦朧美是這首小詞的最大特點。霧、春夢、朝雲,這幾個意象都是朦朧、飄渺的,意象之間又故意省略了銜接,顯出較大的跳躍性,文字空靈,精煉,使人咀嚼不盡,顯示了詩人不凡的藝術功力。但是,從“夜半來,天明去”的敘寫,可知這裏取喻於花與霧,在於比方所詠之物的短暫易逝,難持長久。如果單看“夜半來,天明去”,頗使讀者疑心是在說夢。但從下句“來如春夢”四字,可見又不然了。“夢”原來也是一比。這裏“來”、“去”二字,在音情上有承上啓下作用,由此生發出兩個新鮮比喻。“夜半來”者春夢也,春夢雖美卻短暫,於是引出一問:“來如春夢幾多時?”“天明”見者朝霞也,雲霞雖美卻易幻滅,於是引出一歎:“去似朝雲無覓處”。   有人主張這首詞通篇都是隱語, 主題當是詠官妓 。當時各級官府都有一定數目的官妓,供那些官僚們驅使。首句“花非花”是說官妓的容顏如花,但又並非真花。次句“霧非霧”中“霧”字是雙關。借“霧”為“婺”。“婺女”即女宿星。因官妓女性,上應女宿,但又並非雲霧之霧。    “ 夜半來,天明去”既是詠星,也是說人。語意雙關,而主要是說人。唐宋時代旅客招妓女伴宿,都是夜半才來,黎明即去。因此,她來的時間不多,旅客宛如做了一個春夢。她去了之後,就像清晨的雲,消散得無影無蹤。官妓不同于一般的妓女,更不同于正式的妻子,她們與官僚之間互為依存,但關係又不便十分密切,只能以夜來明去為限,可謂會短別