跳到主要內容

轉載

Data Mining 探索
 前言
資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。它是個神奇又時髦的技術,但卻也不是什麼新東西,因為Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,但是資訊科技的進展超乎想像,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘寶藏,常常能超越歸納範圍的關係;使Data Mining成為企業智慧的一部份。
Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。
本文首先對Data Mining這個新浮現的領域,定義其基本觀念,並探討在此領域中企業的應用現況。接著對於困擾許久的名詞:Data Warehouse、KDD、Data Mining,做深入的分析比較,釐清它們間的關係。最後介紹發展Data Mining的工具與結論。
Data Mining的含義
所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。
資料挖掘既然可以增加企業智慧,提昇企業競爭優勢,到底應該如何進行呢?根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。從八個步驟來看,Data Mining牽涉大量的規劃與準備,而從其他文獻得知,專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。從這個角度看,Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
企業應用現況
Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。
目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。
企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。
資料倉儲、KDD、Data Mining的關係
許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。由於關聯式資料庫、平行處理及分散式資料庫技術的進步,不論是主從式架構或主機型架構的資料庫系統,資料倉儲技術皆可以利用原有作業中或已有的(Legacy)系統,進而提供一個穩固的基礎以支援全公司的決策支援系統(DSS)。
資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。
總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。
張貼留言

這個網誌中的熱門文章

轉載《再別康橋》 賞析

《再別康橋》賞析
作者: 徐志摩


輕輕的我走了,
正如我輕輕的來;
我輕輕的招手,
作別西天的雲彩。

那河畔的金柳,
是夕陽中的新娘;
波光裡的豔影,
在我的心頭蕩漾。

軟泥上的青荇,
油油的在水底招搖;
在康河的柔波裡,
我甘心做一條水草!

那榆蔭下的一潭,
不是清泉,
是天上虹;

陳琳 古詩《飲馬長城窟行》漫談

飲馬長城窟,水寒傷馬骨。
往謂長城吏,慎莫稽留太原卒﹗
官作自有程,舉筑諧汝聲﹗
男兒寧當格鬥死,何能怫郁(ㄈㄨˊ ㄩˋ)筑長城。

長城何連連,連連三千里。
邊城多健少,內舍多寡婦。

作書與內舍,便嫁莫留住。
善待新姑嫜,時時念我故夫子﹗

報書往邊地,君今出語一何鄙﹖
身在禍難中,何為稽留他家子﹖
生男慎莫舉,生女哺用脯。
君獨不見長城下,死人骸骨相撐拄。
結髮行事君,慊慊心意關。
明知邊地苦,賤妾何能久自全﹖

語譯
  第一層(1—8句),寫築城役卒與長城吏的對話:
  讓馬飲水,只得到那長城下山石間的泉眼,那裡的水是那麼的冰冷,都冷傷透及馬骨頭裡。
  一位築城役卒跑去對監修長城的官吏懇求說:你們千萬不要長時間的滯留我們這些來自太原的役卒啊!

白居易的《花非花》究竟是什麽意思

花非花,霧非霧。夜半來,天明去。來如春夢不多時,去似朝雲無覓處。這首唐代著名詩人白居易的《花非花》在五十多年前我讀書的時候就已經於音樂課中學過,至今還沒忘記它的旋律。不過對於詞句的意思卻是不甚了了。最近我著迷台詩宋詞的學習,上網查這首詩的翻譯,發現有多家不同的解讀,詩人的《花非花》到底想說什麼呢?感到十分有趣,特將結果整理與同好分享。
白居易詩不僅以語言淺近著稱,其意境亦多顯露,但這首《花非花》卻句式奇特,且通篇取譬,十分含蓄,甚至迷離,堪稱是中國文學史上最早的朦朧詩的代表,在白詩中確乎是一個特例。因此對於這首詩到底想表達甚麼,充滿好奇。詩取前三字爲題,近乎“無題”。首二句應讀作“花——非花,霧——非霧”,先就給人一種捉摸不定的感覺。“非花”、“非霧”均系否定,卻包含一個不言而喻的前提:似花、似霧。因此可以說,這是兩個靈巧的比喻。語意雙關,富有朦朧美是這首小詞的最大特點。霧、春夢、朝雲,這幾個意象都是朦朧、飄渺的,意象之間又故意省略了銜接,顯出較大的跳躍性,文字空靈,精煉,使人咀嚼不盡,顯示了詩人不凡的藝術功力。但是,從“夜半來,天明去”的敘寫,可知這裏取喻於花與霧,在於比方所詠之物的短暫易逝,難持長久。如果單看“夜半來,天明去”,頗使讀者疑心是在說夢。但從下句“來如春夢”四字,可見又不然了。“夢”原來也是一比。這裏“來”、“去”二字,在音情上有承上啓下作用,由此生發出兩個新鮮比喻。“夜半來”者春夢也,春夢雖美卻短暫,於是引出一問:“來如春夢幾多時?”“天明”見者朝霞也,雲霞雖美卻易幻滅,於是引出一歎:“去似朝雲無覓處”。
  有人主張這首詞通篇都是隱語,主題當是詠官妓。當時各級官府都有一定數目的官妓,供那些官僚們驅使。首句“花非花”是說官妓的容顏如花,但又並非真花。次句“霧非霧”中“霧”字是雙關。借“霧”為“婺”。“婺女”即女宿星。因官妓女性,上應女宿,但又並非雲霧之霧。
“夜半來,天明去”既是詠星,也是說人。語意雙關,而主要是說人。唐宋時代旅客招妓女伴宿,都是夜半才來,黎明即去。因此,她來的時間不多,旅客宛如做了一個春夢。她去了之後,就像清晨的雲,消散得無影無蹤。官妓不同于一般的妓女,更不同于正式的妻子,她們與官僚之間互為依存,但關係又不便十分密切,只能以夜來明去為限,可謂會短別長。元稹有一首詩《夢昔時》,記他在夢中重會一個女子,有句云:“夜半初得處,天明臨去時。”…