跳到主要內容

轉載

Data Mining 探索
 前言
資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。它是個神奇又時髦的技術,但卻也不是什麼新東西,因為Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,但是資訊科技的進展超乎想像,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘寶藏,常常能超越歸納範圍的關係;使Data Mining成為企業智慧的一部份。
Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。
本文首先對Data Mining這個新浮現的領域,定義其基本觀念,並探討在此領域中企業的應用現況。接著對於困擾許久的名詞:Data Warehouse、KDD、Data Mining,做深入的分析比較,釐清它們間的關係。最後介紹發展Data Mining的工具與結論。
Data Mining的含義
所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。
資料挖掘既然可以增加企業智慧,提昇企業競爭優勢,到底應該如何進行呢?根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。從八個步驟來看,Data Mining牽涉大量的規劃與準備,而從其他文獻得知,專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。從這個角度看,Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
企業應用現況
Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。
目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。
企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。
資料倉儲、KDD、Data Mining的關係
許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。由於關聯式資料庫、平行處理及分散式資料庫技術的進步,不論是主從式架構或主機型架構的資料庫系統,資料倉儲技術皆可以利用原有作業中或已有的(Legacy)系統,進而提供一個穩固的基礎以支援全公司的決策支援系統(DSS)。
資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。
總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。
張貼留言

這個網誌中的熱門文章

轉載《再別康橋》 賞析

《再別康橋》賞析
作者: 徐志摩


輕輕的我走了,
正如我輕輕的來;
我輕輕的招手,
作別西天的雲彩。

那河畔的金柳,
是夕陽中的新娘;
波光裡的豔影,
在我的心頭蕩漾。

軟泥上的青荇,
油油的在水底招搖;
在康河的柔波裡,
我甘心做一條水草!

那榆蔭下的一潭,
不是清泉,
是天上虹;

從胡適的新詩《希望》到《蘭花草》

如果唱起“我從山中來,帶得蘭花草”,相信很多人都能夠接著唱幾句,這首民歌《蘭花草》在若干年前曾經瘋迷一時,為許多年輕人所喜愛。因為它旋律流暢,同時歌詞淺顯易懂。但是很多人都不知道其實這首歌的原始作者竟然是國寶級的大師胡適博士。原詩的名字是《希望》。1921年夏天,胡適的朋友熊秉三夫婦送給胡適一盆蘭花草,胡適歡歡喜喜帶了回來。胡適每天在讀書寫作之餘精心照顧,但直到秋天,也沒有開出花來,於是他有感而發寫了這首小詩。這首詩清新、質樸、深情,對生命的期待與珍惜躍然紙上。胡適給它取名為《希望》。這首小詩《希望》共3闋60字,詩云:
  我從山中來,帶得蘭花草。種在小園中,希望開花好。
        一日望三回,望到花時過;急壞看花人,花苞無一個。
  眼見秋天到,移花供在家,明年春風回,祝汝滿盆花。


後來20世紀八十年代初期被陳賢德和張弼二人修改並配上曲子,同時改名為《蘭花草》,由名歌手劉文正演唱,從而廣為流傳。

《蘭花草》的歌詞如下   我從山中來,帶來蘭花草,種在小園中,希望花開早。
  一日看三回,看得花時過;蘭花卻依然,苞也無一個。
  轉眼秋天到,移蘭入暖房;朝朝頻不息,夜夜不能忘。
 但願花開早,能將宿願償;滿庭花簇簇,開得有多香。 從以上比較可以清楚看出,《蘭花草》歌詞是《希望》一詩稍加增改而成。從立意、內容、文辭到形式,都沒有大的變化。只是為了傳唱的方便,將三段敷衍為四節。作為歌曲,這是可以理解的。由歌詞我們彷彿看到一個朝氣蓬勃的少年從山中帶回一株蘭花草時的滿心歡喜,看到他在精緻的小園中細心呵護的身影,看到他遮掩不住的焦急。清澈達意的文字中能看到那個少年清澈眼眸裡的天真和悵然。

由前述的解說,1921年胡適寫這首小詩的時候,似乎只是一時興起,將當時的感受以詩的形式表達出來,然而為什麼會取名《希望》,則是眾說紛紜,莫衷一是。一說是1919年2月,胡適曾翻譯過另外一首《希望》小詩。而且,妻子江冬秀懷孕在身,兩個月後就要臨產,“希望”預示著新生命的前程。有人認為詩中的“蘭花草”其實是隱喻“德先生與賽先生”,胡適於1917年回北京大學任教時將民主和科學引進中國,然而到了1921年,民主和科學並沒有如他所預期的在中國落地生根,甚至“苞也無一個”。也有人認為“蘭花草”其實是隱喻白話詩,胡適的文學革命是主張以白話取代文言寫詩,它早在1916年開始就不斷實驗以白話寫詩,可惜贊成他的主張的人似…

陳琳 古詩《飲馬長城窟行》漫談

飲馬長城窟,水寒傷馬骨。
往謂長城吏,慎莫稽留太原卒﹗
官作自有程,舉筑諧汝聲﹗
男兒寧當格鬥死,何能怫郁(ㄈㄨˊ ㄩˋ)筑長城。

長城何連連,連連三千里。
邊城多健少,內舍多寡婦。

作書與內舍,便嫁莫留住。
善待新姑嫜,時時念我故夫子﹗

報書往邊地,君今出語一何鄙﹖
身在禍難中,何為稽留他家子﹖
生男慎莫舉,生女哺用脯。
君獨不見長城下,死人骸骨相撐拄。
結髮行事君,慊慊心意關。
明知邊地苦,賤妾何能久自全﹖

語譯
  第一層(1—8句),寫築城役卒與長城吏的對話:
  讓馬飲水,只得到那長城下山石間的泉眼,那裡的水是那麼的冰冷,都冷傷透及馬骨頭裡。
  一位築城役卒跑去對監修長城的官吏懇求說:你們千萬不要長時間的滯留我們這些來自太原的役卒啊!