TechNet 技術講座 <SLIDETITLE INCLUDE=0>Entry Slide</SLIDETITLE> <KEYWORDS></KEYWORDS> <KEYMESSAGE></KEYMESSAGE> <SLIDEBUILDS>0</SLIDEBUILDS> <SLIDESCRIPT></SLIDESCRIPT> <SLIDETRANSITION> </SLIDETRANSITION> <COMMENT></COMMENT> <ADDITIONALINFORMATION> <ITEM></ITEM> </ADDITIONALINFORMATION> Welcome
SQL Server 2008商業智慧 <SLIDETITLE INCLUDE=7>Title Slide</SLIDETITLE> <KEYWORDS></KEYWORDS> <KEYMESSAGE></KEYMESSAGE> <SLIDEBUILDS>0</SLIDEBUILDS> <SLIDESCRIPT> Hello and Welcome to this Microsoft TechNet session on {insert session title}. My name is {insert name} </SLIDESCRIPT> <SLIDETRANSITION> <TRANSITION LENGTH=7>Let us start this session by going into more detail on exactly what we will be covering.</TRANSITION> </SLIDETRANSITION> <COMMENT></COMMENT> <ADDITIONALINFORMATION> <ITEM></ITEM> </ADDITIONALINFORMATION>
Agenda SSRS SSAS OLAP SSAS Data Mining SSIS 資料倉儲 <SLIDETITLE INCLUDE= >Agenda: </SLIDETITLE> <KEYWORDS></KEYWORDS> <KEYMESSAGE></KEYMESSAGE> <SLIDEBUILDS>0</SLIDEBUILDS> <SLIDESCRIPT> [Start by telling them what you are going to tell ‘em, then each subsequent agenda item, tell ‘em what you told ‘em as well] </SLIDESCRIPT> <SLIDETRANSITION> <TRANSITION LENGTH=></TRANSITION> </SLIDETRANSITION> <COMMENT></COMMENT> <ADDITIONALINFORMATION> <ITEM></ITEM> </ADDITIONALINFORMATION>
微軟商業智慧架構 SharePoint Server Excel PerformancePoint Server DELIVERY SEARCH DELIVERY Reports Dashboards Excel Workbooks Analytic Views Scorecards Plans CONTENT MANAGEMENT COLLABORATION END USER TOOLS & PERFORMANCE MANAGEMENT APPS Excel PerformancePoint Server BI PLATFORM SQL Server Reporting Services Analysis Services SQL Server DBMS SQL Server Integration Services
SSRS 2008全新功能 報表設計 報表處理與轉譯 報表伺服器架構與管理工具 全新資料來源以設計異質性資料報表 新增的Tablix資料區域 新增的圖表與量測軌資料區域 文字方塊支援豐富文本格式設定 報表處理與轉譯 轉譯為Word檔案格式 大幅提升報表處理以及轉譯執行效率 報表伺服器架構與管理工具 從此脫離了IIS 支援多重認證模式
傳統SSRS資料區域物件 Customer Retail Acme Nadir, Inc. Wholesale ABC Corp. XYZ, Ltd. Grand Total Growth 19% 322% 56% Retail Acme Nadir, Inc. Wholesale ABC Corp. XYZ, Ltd. Grand Total 2001 2002 Total 1,115 1,331 2,446 152 642 794 11,156 13,312 24,468 1,523 6,421 7,944 13,946 21,706 35,653
Tablix = Table + Matrix Matrix plus Table plus 多重平行資料列/資料行群組 每個成員可以自由決定動態或者是靜態 可以整合資料列標頭 Table plus 動態巢狀資料行群組 多重平行資料列群組 靜態資料列 可彈性延伸資料行標頭
傳統SSRS資料區域物件 Customer Retail Acme Nadir, Inc. Wholesale ABC Corp. XYZ, Ltd. Grand Total Growth 19% 322% 56% Retail Acme Nadir, Inc. Wholesale ABC Corp. XYZ, Ltd. Grand Total 2001 2002 Total 1,115 1,331 2,446 152 642 794 11,156 13,312 24,468 1,523 6,421 7,944 13,946 21,706 35,653
Tablix = Table + Matrix Matrix plus Table plus 多重平行資料列/資料行群組 每個成員可以自由決定動態或者是靜態 可以整合資料列標頭 Table plus 動態巢狀資料行群組 多重平行資料列群組 靜態資料列 可彈性延伸資料行標頭
動態平行群組 以前 現在 2005 2006 WA Seattle 50 60 Spokane 30 40 OR Portland Eugene 20 Table Chair WA Seattle 20 30 Spokane 10 OR Portland Eugene 25 5 以前 Year Product 2005 2006 Table Chair WA Seattle 50 60 20 30 Spokane 40 10 OR Portland Eugene 25 5 現在
混和動態靜態資料行 以前 現在 2005 2006 WA Seattle 50 60 Spokane 30 40 OR Portland Eugene 20 State City Pop Area WA Seattle 20 30 Spokane 10 OR Portland Eugene 25 5 以前 State City 2005 2006 Pop Area WA Seattle 50 60 20 30 Spokane 40 10 OR Portland Eugene 25 5 現在
階層資料列以及動態標頭 以前 現在 2005 2006 West Total 140 180 Washington 80 100 Seattle 50 60 Spokane 30 40 Oregon Portland Eugene 20 East 200 220 2005 2006 West 140 180 Washington 80 100 Seattle 50 60 Spokane 30 40 Oregon Portland Eugene 20 East 200 220 ... ...
資料視覺化全新升級 新增圖表類型 強化圖表功能 量測軌 堆疊圖、範圍圖、箱型圖、金字塔圖、甜甜圈圖… 混合圖表 雙軸圖表 導出數列 刻度斷層 多重圖例 自動數列標籤 量測軌 各種儀表板型態
資料視覺化的價值
新圖表功能 多重圖表標題(標題支援運算式) 多重圖例 資料點的工具提示 多重圖表區域 雙軸圖表 客製化圖表調色盤 導出數列 刻度斷層 平均值、移動平均、保歷加通道(Bollinger Bands)、標準差… 刻度斷層
圖表範例 區域效果 刻度斷層 圖型配色
圖表範例 多重圖例 隔行換色 導出數列 多重圖表區域
圓餅圖 小面積「其他」 小面積新圓餅圖 Custom Attribute. CollectedStyle=SingleSlice CollectedThresholdUsePercent CollectedThreshold 小面積新圓餅圖 Custom Attribute. CollectedStyle=CollectedPie
量測軌範例 雷達型 線性
量測軌結構
豐富的圖型呈現
報表設計工具 報表設計師 報表產生器1.0 報表產生器2.0 Report Report Builder Designer 2.0 Office 2007外觀 整合VS.NET 2008 完整RDL支援 分享配置介面 Report Builder 2.0 報表模型 整合查詢與配置 完整支援報表模型 自動產生鑽研報表 有限支援RDL Report Builder 1.0
報表產生器2.0 報表產生器2.0= 報表設計師+ 報表精靈+ 報表產生器1.0 專業開發人員以及一般使用者都可以使用 接近Office 2007的介面 可以處理複雜格式的報表 同時支援資料集與報表模型 可以隨時切換報表設計師或者是報表產生器的報表 報表產生器2.0將是未來隨選報表的技術主流
SSRS 2008全新功能 報表設計 報表處理與轉譯 報表伺服器架構與管理工具 全新資料來源以設計異質性資料報表 新增的Tablix資料區域 新增的圖表與量測軌資料區域 文字方塊支援豐富文本格式設定 報表處理與轉譯 轉譯為Word檔案格式 大幅提升報表處理以及轉譯執行效率 報表伺服器架構與管理工具 從此脫離了IIS 支援多重認證模式
SSRS 2008效能新架構 隨選報表處理(On-demand processing):沒看到的部分就先不處理 全新分頁機制:直接呈現第一頁給使用者瀏覽 最小記憶體耗用
分頁回應速度
記憶體管理原則 WorkingSetMaximum和WorkingSetMinimum會定義可用記憶體的範圍(上下界),以定義報表伺服器應用程式設定可用記憶體的範圍。 高度記憶體壓力的上界是WorkingSetMaximum而下界是MemoryThreshold。 中度記憶體壓力的上界是MemoryThreshold而下界是MemorySafetyMargin。 低度記憶體壓力的上界是MemorySafetyMargin而下界是WorkingSetMinimum。
從此脫離IIS !!! 改以內建於SQL Server CLR的ASP.NET以及Microsoft .NET Framework,與作業系統的HTTP.SYS取代 避免與其他網頁程式之間的干擾 不受ASP.NET記憶體政策之管控 簡化效能調校與維護複雜度
SSAS OLAP 2008全新功能(i) 改良儲存結構:新的儲存結構針對Analysis Services資料庫提供了更強固的儲存機制,移除了資料庫檔案大小及數量上的限制 強化備份效能:備份和還原以新的儲存結構提高效能,並解除對備份大小的限制(可以檔案目錄為單位,「卸離/ 附加」資料庫) 新增了動態管理檢視(Dynamic Management View)
SSAS OLAP 2008全新功能(ii) 疏鬆資料格 維度設計師中新增屬性關係頁籤 Cube設計師中新增彙總設計頁籤 支援MOLAP回寫
SSAS Data Mining 2008全新功能 新增ARIMA時間序列演算法 採礦結構 模型驗證 Office 2007資料採礦增益集 定義訓練組與測試組 設定區隔模型 模型驗證 交叉驗證(Cross validation) Office 2007資料採礦增益集
模型穩定性挑戰
模型預測的結果
Over-fitting 過度複雜的模型反而會記憶住資料的特定結構 建模成效很好,但是預測時反而效果較差 使用測試與測試資料組 降低模型之複雜程度 減少使用變數 同樣的預測力下,越簡單的規則就是越好的規則
使用測試資料集(Testing) Training Testing 使用訓練資料集 建立預測模型. 使用測試資料集 來避免模型對於訓練資料集產生記憶效應
如何產生測試集 SSAS 2005:利用SSIS的「百分比取樣」以及「資料列取樣」節點自行抽樣
時間序列演算法 SQL Server 2005 :ARTXP SQL Server 2008 :ARIMA 擅長短期數值變動預測 擅長長期趨勢預測 提供ARTXP+ARIMA混合模式(PREDICTION_SMOOTHING)
資料模型驗證 驗證模式 效度 信度 增益圖(Lift) 與 收益圖(Profit Charts) 散布圖(Scatter Plots) 分類矩陣(Classification Matrix) 信度 交叉驗證(Cross-validation) (SQL 2008 Enterprise Edition)
交叉驗證 設定樣本折疊數(fold) 各樣本折疊產生相近評估數字,表示模型信度高 5-fold cross-validation 1,2,3,4建模,5驗證 2,3,4,5建模,1驗證 1,3,4,5建模,2驗證 1,2,4,5建模,3驗證 1,2,3,5建模,4驗證
Office 2007 Data Mining Add-ins Office Excel 2007資料表分析工具 Office Excel 2007資料採礦使用者端 Visio 2007 資料採礦流程範本
Office Excel 2007資料表分析工具 分析關鍵影響因數(Analyze Key Influencers) 偵測類別目錄(Detect Category) 根據範例填滿(Fill from Example) 預測(Forecast) 反白顯示例外狀況(Highlight Exceptions) 狀況分析(Scenario Analysis)
Office Excel 2007資料表分析工具 SQL Server 2008中新增 購物籃分析(Basket Analysis ) 預測計算器(Predict Calculator)
SSIS 2008全新功能(資料流程) 原有的「DataReader來源」更名成「ADO .NET來源,運用ADO.NET connectivity技術最佳存取資料效能 提升查閱(lookup)效能 可讓多個元件執行時分享執行緒
SSIS 2008全新功能(控制流程) 新增「資料分析工作(Data Profiling Task)」,以分析SQL Server資料庫中的資料特徵 欄位中資料值• 的長度分布(Distribution)。 欄位中值是Null的紀錄數所占百分比。 資料欄位值的分布(Distribution)。 資料欄位的資料值統計,如最大、最小等,這與欄位的資料類型有關。 比對字串欄位的值符合規則運算式(regular expression)所訂格式的紀錄比例。 分析資料欄位間關聯性
SSIS整體新增功能 「快取轉換」元件將資料流程中已取得的資料寫入「快取連接管理員」,而「快取連接管理員」將資料留在記憶體中或存入硬碟檔案,待其他的資料流程使用 SSIS支援SQL Server 2008新增的資料型態,如日期和時間資料類型
適用資料倉儲全新功能 全新查詢功能 Merge Star Join 資料壓縮與備份壓縮 Minimal LOG INSERT
MERGE 如果存在則更新,如果不存在則新增 MERGE INTO dbo.Customers AS TGT USING dbo.CustomersStage AS SRC ON TGT.custid = SRC.custid WHEN MATCHED THEN UPDATE SET TGT.companyname = SRC.companyname, TGT.phone = SRC.phone, TGT.address = SRC.address WHEN NOT MATCHED THEN INSERT (custid, companyname, phone, address) VALUES (SRC.custid, SRC.companyname, SRC.phone, SRC.address);
資料壓縮 主要目的: 縮減事實資料表儲存空間 次要目的: 提升查詢效能 僅於SQL Server 2008 Enterprise Edition支援 可根據資料表、索引或是資料分割設定
啟用壓縮 CREATE TABLE T (c1 int, c2 char(2000) ) WITH (DATA_COMPRESSION = ROW) CREATE TABLE T_Part (c1 int, c2 char(2000) ) ON somePartScheme (c1) WITH (DATA_COMPRESSION = PAGE ON PARTITIONS (1-7), DATA_COMPRESSION = NONE ON PARTITIONS (8) ) ALTER INDEX CI ON T REBUILD WITH (DATA_COMPRESSION=PAGE) ALTER INDEX CI ON T REBUILD PARTITION = 3
實際測試成果 總資料量9000萬筆 SQL Server 2005 SQL Server 2008 Core(TM)2 Quad CPUI Q9300 2.5G Hz RAM 8G HDD SATA II 500G OS WINDOWS Server2008 總資料量9000萬筆 SQL Server 2005 SQL Server 2008 SQL Server 2008啟用PAGE資料壓縮 實際檔案大小(MB) 14635.812 13582.656 7097.813 DATA SPACE(MB) 9903.289 3858.305 壓縮比率:38.96% INDEX SPACE(MB) 4732.523 3679.367 3239.508 查詢1萬筆資料 1分30秒 46秒 18秒 Count資料筆數 2分48秒 2分05秒 2分10秒 查詢1筆資料 53秒 44秒 1秒
<SLIDETITLE INCLUDE=0>Tag line</SLIDETITLE> <KEYWORDS></KEYWORDS> <KEYMESSAGE></KEYMESSAGE> <SLIDEBUILDS>0</SLIDEBUILDS> <SLIDESCRIPT></SLIDESCRIPT> <SLIDETRANSITION> </SLIDETRANSITION> <COMMENT></COMMENT> <ADDITIONALINFORMATION> <ITEM></ITEM> </ADDITIONALINFORMATION>
Q&A