Data Mining 探索
前言
資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。它是個神奇又時髦的技術,但卻也不是什麼新東西,因為Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,但是資訊科技的進展超乎想像,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘寶藏,常常能超越歸納範圍的關係;使Data Mining成為企業智慧的一部份。
Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。
本文首先對Data Mining這個新浮現的領域,定義其基本觀念,並探討在此領域中企業的應用現況。接著對於困擾許久的名詞:Data Warehouse、KDD、Data Mining,做深入的分析比較,釐清它們間的關係。最後介紹發展Data Mining的工具與結論。
Data Mining的含義
所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。
資料挖掘既然可以增加企業智慧,提昇企業競爭優勢,到底應該如何進行呢?根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。從八個步驟來看,Data Mining牽涉大量的規劃與準備,而從其他文獻得知,專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。從這個角度看,Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
企業應用現況
Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。
目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。
企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。
資料倉儲、KDD、Data Mining的關係
許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。由於關聯式資料庫、平行處理及分散式資料庫技術的進步,不論是主從式架構或主機型架構的資料庫系統,資料倉儲技術皆可以利用原有作業中或已有的(Legacy)系統,進而提供一個穩固的基礎以支援全公司的決策支援系統(DSS)。
資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。
總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。
前言
資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。它是個神奇又時髦的技術,但卻也不是什麼新東西,因為Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,但是資訊科技的進展超乎想像,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘寶藏,常常能超越歸納範圍的關係;使Data Mining成為企業智慧的一部份。
Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。
本文首先對Data Mining這個新浮現的領域,定義其基本觀念,並探討在此領域中企業的應用現況。接著對於困擾許久的名詞:Data Warehouse、KDD、Data Mining,做深入的分析比較,釐清它們間的關係。最後介紹發展Data Mining的工具與結論。
Data Mining的含義
所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。
資料挖掘既然可以增加企業智慧,提昇企業競爭優勢,到底應該如何進行呢?根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。從八個步驟來看,Data Mining牽涉大量的規劃與準備,而從其他文獻得知,專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。從這個角度看,Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
企業應用現況
Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。
目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。
企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。
資料倉儲、KDD、Data Mining的關係
許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。由於關聯式資料庫、平行處理及分散式資料庫技術的進步,不論是主從式架構或主機型架構的資料庫系統,資料倉儲技術皆可以利用原有作業中或已有的(Legacy)系統,進而提供一個穩固的基礎以支援全公司的決策支援系統(DSS)。
資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。
總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。
留言