资源描述:
1 資料採礦入門與簡介資料採礦入門與簡介 謝邦昌教授 兼總務長謝邦昌教授 兼總務長 輔仁大學統計資訊學系 stat1001mails.fju.edu.tw 2004/05/26 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Evolution of Database Technology 1960s – Data collection, database creation, IMS and network DBMS 1970s – Relational data model, relational DBMS implementation 1980s – RDBMS, advanced data models extended- relational, OO, deductive, etc. and application- oriented DBMS spatial, scientific, engineering, etc. 1990s2000s – Data mining and data warehousing, multimedia databases, and Web databases PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 知識發現知識發現 The nontrivial process of identifying valid、 novel、potentially useful, and ultimately understandable pattern in data –Fayyad,1996 資料來源資料來源 Fayyad et al. ((1996)) PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 何謂何謂Data Mining 找尋隱藏在資料中的訊 息,如趨勢(Trend)、特 徵(Pattern)及相關性 (Relationship)。 KDD的一部份。 運用電腦儲存運算能力及 使用統計方法工具。 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Data Mining的定義的定義 資料採礦是一個確定資料中有效的、新的, 可能有用的並且最終能被理解的模式的重要過程。 Fayyad 資料採礦是為要發現出有意義的樣型或規則,而必 須從大量資料之中以自動或是半自動的方式來探索 和分析資料。 Berry Linoff, 1997 資料採礦是一種新的且不斷循環的決策支援分析過 程,它能夠從組合在一起的資料中,發現出隱藏價 值的知識,以提供給企業專業人員參考。 Kleissner, 1998 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Data Mining所集合的領域所集合的領域 Data Mining Database Technology Statistics Other Disciplines Ination Science Machine Learning Visualization PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 需要需要Data Mining的原因的原因 Large number of records cases 108- 1012 bytes High dimensional data variables 10- 104 attributes Only a small portion, typically 5 to 10, of the collected data is ever analyzed. Data that may never be explored continues to be collected out of fear that something that may prove important in the future may be missing. Magnitude of data precludes most traditional analysis more on complexity later. PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 8 Decision Trees Nearest Neighbor Classification Neural Networks Rule Induction K- means Clustering Data Mining Is PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 9 Data warehousing SQL / Ad Hoc Queries / Reporting Software Agents Online Analytical Processing OLAP Data Visualization Data Mining is Not ... PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 10 Convergence of Three Technologies PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 11 1. Increasing Computing Power Moore’s law doubles computing power every 18 months. Powerful workstations became common Cost effective servers provide parallel processing to the mass market. Interesting tradeoff – Small number of large analyses vs. large number of small analyses PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 12 Data Collection Access Navigation Mining The more data the better usually 2. Improved Data Collection PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 13 3. Improved Algorithms Techniques have often been waiting for computing technology to catch up. Statisticians already doing “manual data mining” Good machine learning is just the intelligent application of statistical processes . A lot of data mining research focused on tweaking existing techniques to get small percentage gains. PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 資料倉儲的意義資料倉儲的意義 從不同來源從不同來源 獲取資料獲取資料 以單一、完整及一致以單一、完整及一致 性的原則來加以儲存性的原則來加以儲存 企業環境中能有效的企業環境中能有效的 了解並使用這些資料了解並使用這些資料 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 資料倉儲系統中主要的概念資料倉儲系統中主要的概念 傳統系統傳統系統被動式查詢被動式查詢 當有查詢時才做運算當有查詢時才做運算 資料倉儲系統資料倉儲系統主動式查詢主動式查詢 當資料來源更動時,隨即作當資料來源更動時,隨即作出反應出反應 輔助高階輔助高階查詢查詢擷擷取、取、篩選篩選、、整合整合相關相關資資訊訊 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 資料倉儲的資料倉儲的元件元件 運作的資料來源(Operational data sources) 設計/開發工具 資料抽取(data extraction)與轉換 (transation)工具 資料庫管理系統(DBMS) 資料存取與分析工具 系統管理工具 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 資料資料超市超市 以主題導向、整合性、隨著時間變動以及非 揮發之性質,用來儲存部門、區域或功能性資料, 提供特定企業領域作決策之用。 優點 – 可以多個功能別的資料超市取代一個龐大的資料倉儲,適用於 規模較大的組織,決策者各取所需,不會造成單一資料庫負荷 過重,能夠保持應有的服務效率。 缺點 – 多個資料來源轉換到多個資料超市,轉換處理的複雜度增加。 – 決策需使用多個資料超市的資料時,分析處理的複雜度增加。 – 資料超市的維護管理工作比資料倉儲多 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Data Mining的的功功能能 A process of searching through data to find the rules or models for the purpose of – Classification Decision Tree, Neural Network etc – Estimation Regression Neural Network etc. – Prediction Decision Tree, Neural Network etc. – Association GRI, Apriori etc. – Clustering K- means Kohonen Network PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Data Mining的的應應用用 Not customer Matured Customer New Customer Acquisition Customer profiling Target marketing Segmentation Market basket analysis Maintenance I Cross- selling Segmentation Risk Management Churn Maintenance II Customer Loyalty Retention Life- time Value Profitability Customer Life Cycle PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Data Mining的的應應用用 020406080 of Respondents Customer profiling Targeted marketing Market basket analysis Attrition management Fraud detection Credit risk analysis Type of Application PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 21 Common Uses of Data Mining Direct mail marketing Web site personalization Credit card fraud detection – Gas jewelry Bioinatics Text analysis – SAS lie detector Market basket analysis – Beer baby diapers PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 A “black box” that makes predictions about the future based on ination from the past and present Large number of s usually available 22 Definition Predictive Model PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Some models are better than others – Accuracy – Understandability Models range from “easy to understand” to incomprehensible – Decision trees – Rule induction – Regression models – Neural Networks Easier Harder Models PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 24 Scoring The workhorse of data mining A model needs only to be built once but it can be used over and over The people that use data mining results are often different from the systems people that build data mining models – How do you get a model into the hands of the person who will be using it Issue Coordinating data used to build model and the data scored by that model – Is the data the same – Is consistency automatically enforced PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 25 Two Ways to Use a Model Qualitative – Provide insight into the data you are working with If city New York and 30 6060 ...... ... Decision Tree PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Decision Trees Pro/Con Advantage – Model is easy for people to understand – Build model quickly – Handles non- numeric data – Works fine with many dimensions Disadvantage – Limited to single dependent variable – Some algorithms e.g. CHAID cannot predict continuous dependent variable – Good stopping rules are hard to find PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 C5.0 Strengths – Comprehensive noise handling – simplified interpretations – Very efficient decision list generation – Does not bias towards numerics – Simplified parameter options – added features such as boosting – good memory management Weaknesses – does not handle numeric outputs PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 I N P U T S Ouput Hidden layer Neural Networks Learns by feeding, the prediction error backwards and modifies the weights Particularly strong in numerical applications Neural networks are powerful, but opaque PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Hidden Layer Output Layer Layer A inA inB in G out A A B B C C D D E E F F G G WWca ca WWcb cb WWda da WWdb db WWea ea WWeb eb WW fa fa WWfb fb WWgc gc WWgd gd WWge ge WWgf gf Weights Back Propagation Mathematics PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Neural Net Pro/Con Advantage – Multiple dependent variables – Continuous or discrete values – Complex interactions Disadvantages – Difficult, complex architectures – Model is not descriptive black box s Predicted Target PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Kohonen Networks -1 Different type of Neural Network Kohonen Networks cluster the data Unlike neural nets and other models mentioned so far – Knets are ‘unsupervised’ -they do not require an output field Similar records appear close in final map Depth of color represents ‘strength’ of node PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Kohonen Networks -2 Output for each record is of – KX- – KY- Plot these co- ordinates and agitate the values - overlay symbolic attributes Kohonen Networks do not describe ‘why’ records have been clustered together PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 K- means Clustering PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Association Rule A ⇒ D C ⇒ A A ⇒ C B C ⇒ D Support 2/5 2/5 2/5 1/5 Confidence 2/3 2/4 2/3 1/3 A B C A C D B C D A D E B C E PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Generalized Rule InductionGRI Features – can handle symbolic and numeric s – ination theoretic bounds help prune the exponential search space Strengths – complete search of the data space – symbolic and numeric s Weaknesses – complete search of the data space, long run times. PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Apriori Algorithm generates associations based on notion of item sets Based on work by Agrawal et al. “Fast Discovery of Association Rules” Strengths – Very efficient search technique – Able to favor type of associations Weaknesses – no control over ‘ins’ and ‘outs’ of rules. – Symbolic attributes only PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 Functionality C5.0 GRI Apriori BuildRule Numeric s Y Y N Y Symbolic s Y Y Y Y Numeric Outputs N N N Y Symbolic Outputs Y Y Y Y Classification Y N N Y Decision Tree/ Ordered Rules Y N N Y Independent Rules N Y Y N Algorithm Comparison PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 個案研究個案研究 英國Safeway 美國某汽車公司 中國信託商業銀行 台新銀行 聯邦銀行 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 資料採礦入門與簡介謝邦昌 英國英國Safeway 遭遇問題 – 在英國市場運用傳統的技術,如更低的價位、更多的店 面、以及更多種類的產品,競爭已經越來越困難 。 問題確認 – 必須以客戶為導向,而非以產品與店家為導向。 必須瞭解六百萬客戶所做的每一筆交易,以及 這些 交易彼此之間的關連性。 英國 Safeway 想要知道哪些種類的客戶買了哪些種 類的產品以及購
展开阅读全文