中華電信數據通信分公司 公眾數據處-蔡其宏 TEL: #135

BCM營運持續管理 - 災難復原計畫 中華電信數據通信分公司 公眾數據處-蔡其宏 TEL: #135

2 大綱 營運持續管理(BCM)是什麼? 營運持續管理生命週期 營運持續計畫是什麼? 災難復原計畫如何規劃? 災難復原計畫的規劃步驟說明

3 營運持續管理(BCM)是什麼? 3

4 營運持續管理(BCM)是什麼? Business Continuity Management
“Business continuity management is a holistic management process that identifies potential impacts that threaten an organization and provides a framework for building resilience and the capability for an effective response which safeguards the interests of its key stakeholders, reputation, brand and value creating activities” 組織營運過程中,充滿許多挑戰與變化,許多異常事件若無妥善制度管理,將迅速擴大為危機與災難,如何洞燭機先,善用預防制度來規劃這些無法預料的事,已是組織管理必備之管理技能。 資料來源:BS25999:2006

5 BCM營運持續管理國際標準 BS 25999 英國標準協會 (British Standards Institution, BSI) 所推動的營運持續管理系統標準(BCM, Business Continuity Management) BS :2006 Code of practice for business continuity management. BS :2006 營運持續管理作業要點 年11月發佈 BS :2007 Specification for business continuity management. BS :2007  營運持續管理要求 - 計劃於2007年8月正式發佈

6 BCM營運持續管理 – 整合流程 Business Continuity Management

7 營運持續管理生命週期

8 營運持續管理生命週期 – BCM Lifecycle
瞭解您的組織 BCM演練、 維護與稽核 決定BCM策略 發展與實行BCM計畫 資料來源:BS25999:2006

9 瞭解您的組織Understanding your organization
瞭解組織的關鍵:關鍵營運活動 瞭解營運要求的方法有: 營運衝擊分析 Business Impact Analysis (BIA) process of analyzing business functions and the effect that a business interruption might have upon them 營運持續應從鑑別可引起營運過程中斷的事件開始,如設備故障、水災和火災,然後應進行評鑑,確定這些中斷情形的衝擊(根據破壞程度與還原時間) 風險評鑑 Risk Assessment (RA) overall process of risk identification, analysis and evaluation 鑑別、定義與評估索面對的威脅、弱點與風險,並對所有資產鑑別出的風險進行評鑑。 以上兩項可協助瞭解組織所面臨風險的可能性與衝擊,鑑別關鍵營運活動及排定優先順序。

10 決定營運持續管理策略 處理風險的策略可從下面方向考慮 避免風險 降低風險 轉移風險 接受風險 當該風險影響極大時,應設法極力組隔風險
採取適當控制措施,當風險發生時可因適當控制將損失減少 轉移風險 考慮購買適當保險,作為持續營運過程的一部份 接受風險 對於可接受的風險便可採取接受因應

11 發展與實行營運持續管理計畫 建立營運持續計劃(BCP),並須考慮下面項目 計畫啟動條件 職責說明 緊急程序 備援程序 復原程序
認知與教育訓練 維護時間表 程序文件化

12 營運持續管理演練、維護與稽核 演練 維護 稽核 狀況演練、復原測試、測試異地復原、測試供應商的設施與服務、完整演練
13 營運持續計畫是什麼?

14 BCP(營運持續計畫) vs. DRP(災難復原計畫)
Business Continuity Plan (BCP) Business continuity planning is best described as the process and procedures that an organization can put in place to ensure that essential business functions continue to operate during and after a disaster.  By having a BCP, organizations seek to prevent interruption of mission critical services.  This type of planning enables them to re-establish services to a fully functional level as quickly and smoothly as possible.  BCPs generally cover most or all of an organization's critical business processes and operations. Disaster Recovery Plan (DRP) As part of the business continuity process an organization will normally develop a series of DRPs.  These are more technical plans that are developed for specific groups within an organization to allow them to recover a particular business application.  The most well known example of a DRP is the Information Technology (IT) DRP.  Other traditional areas requiring specific DRPs include call centers, warehouses, distribution centers and any other areas of specialized activities. 14

15 BCP vs. DRP DRP只是一小部份

16 BC vs. DR Business Continuous Disaster Recovery
17 DR = 異地備援? Disaster Recovery=>災難復原or異地備援?
Disaster Recovery should include Local redundant or backup,…(在地備援, HA, Cluster,…) Remote redundant or backup,…(異地備援) Anything can let company recover from disaster! 做到了異地備援層次,可以對更多樣的災難有應變之措施或政策 例如地震、風災、火災、水災等區域性災難,在地備援是無法應付 在做異地備援前應該做好在地備援,否則動不動就啟動異地備援,未免太過於勞師動眾 僅有「備援」是不夠的!『復原』才是終極目標! 或是說『永續』才是終極目標 17

18 為什麼要有災難復原計畫 在從IT災難事件中復原時,時間(時效)是最重要的
當重要資料、網路或是資訊系統無法存取後,損失將隨著一分一秒地流逝而快速增加 如果有一套計畫來因應災難事件,那麼將可以有條理、有組織地將災難事件時間縮短 這計畫可能小到只是備份重要的資料或是大到複製整個運作系統 可以採用公司的資源或是外部資源 目標 營運持續(Business Continuity) 18

19 損失有多大?每小時各行業的損失 Failure to keep operating Fortune 1000 study
Average loss $78K (約273萬台幣), up to $500K(約1,750萬台幣) 65% failing over 1 week never reopen Loss of market share common 19

20 什麼是災難復原( Disaster Recovery)?
傳統像:地震、風災、水災、火災、電力損壞等等 新的有:示威抗議、恐怖攻擊、駭客入侵 Information Security Disaster Recovery是目前需要考慮的 災難復原(DR)應該可算是營運持續運作(Business Continuity, BC)的一個環節 目標:在遭遇Natural disaster, infrastructure failure, human errors等事件,企業可以回復營運 Disaster Recovery包括那些? Redundancy, Backup (Daily job, Prevention) Emergency (Detect & Response) Recovery (Reaction)

21 各種類型災難的發生機率 21

22 災難發生後造成系統中斷時間分析 造成系統中斷,各因子所佔中斷時間(Downtime)之比率分析
40% operation error 40% hardware error 12% application failure 5% disaster 3% other environmental 80%的Downtime是因為人為操作錯誤或是硬體障礙,這也是為何要強調Procedure & Plan 22

23 災難復原計畫的規劃 After we have an overview the Internet service on Taiwan, let's go into the IDC topic. 23

24 災難復原規劃(Disaster Recovery Plan)
災難復原規劃要做什麼? 找到業務上的脆弱點 identifying business vulnerabilities 評估業務中斷的影響 assessing the impact of a disruption, 訂定一套風險控制的策略 developing a strategy to manage the risks and 製訂出一套整合的營運持續計劃 implementing an integrated business continuity program

25 Disaster Recovery Plan
災難復原計畫中Key elements是什麼? 明確的目標定義 including recovery goals and objectives 啟動權定義 WHO can activate the team's recovery plan 工作組織 title and functions of each recovery team or team member 資訊文件 specific methods for contacting recovery team members and alternates, vendors, support agencies, suppliers, and all those with whom special disaster contracts and agreements are in effect 明確範圍定義 specific to disaster reactions (which disaster types will or will not be addressed in the plan) 落實訓練 Training of employees in recovery procedures 計畫檢討 Ongoing review and revision of the plan 25

26 1 2 3 4 災難復原計畫之規劃四步驟 診斷及分析Assessments and Analyses(Define ITSCM Scope)
Phase One 備援方案及架構 Solutions Architecture(Requirement & Strategy) 2 Phase Two 導入管理Implementation Management(Implementation) 3 Phase Three 測試及維護Testing & Maintenance(Operational & Management) Phase Four 4 26

27 災難復原規劃步驟之工作區塊 Business Continuity Management Process Model 27

28 災難復原規劃步驟 vs. 行政院資訊安全管理規範
界定重要的業務作業程序,並訂定其優先順序(重要性) 評估各種災害對業務可能的衝擊 維持持續運作之人員責任界定,以及緊急應變措施之安排 建立持續運作之作業程序及流程,並以書面或其他電子方式記載 應就緊急應變程序及作業流程,進行員工教育及訓練 應測試緊急應變計畫 應定期更新緊急應變計畫 28

29 災難復原計畫的規劃步驟說明 Step by Step 29
30 災難復原規劃步驟之工作區塊 Business Continuity Management Process Model 30

31 Phase I – 定義ITSCM範圍 找出IT Service Continuity Management所需涵蓋的範圍(決定標的系統)(訂定Policy) Computer Systems Networks Applications Telecommunications Technical support Service Desk 決定可以容忍的Downtime 範圍及可以容忍的Downtime之決定策略,依據 Organization structure, culture and strategic direction (both business and technology) 31

32 分析重要資訊系統的備援標的物 Connectivity AP Service 機房設施(Facilities) 32

33 IT資訊系統架構中的各個組成 Power HVAC Building
LDAP DNS Web NAS Security Device Web/AP SAN Network Device Storage Network OS Physical Link Storage HW Server HW Power HVAC Building Any component’s outage will cause interrupt of service. Every component needs backup/recovery. 33

34 Phase I – 產出 BCP第一章 災難復原計畫的標的 範疇(Scope) XX資訊系統或XX業務
發生XX之危險事件(hazard)或災難(disaster)時之因應計畫 期望目標(多久可以達到復原) XX資訊系統在XX事件下多久可回復 XX業務系統在XX事件下多久可回復 34

35 災難復原規劃步驟之工作區塊 Business Continuity Management Process Model 35

36 Phase II – 需求分析與策略定義 Requirements Analysis and Strategy Definition
定義災難復原規劃打算在什麼災難情形下,企業營運可以恢復運作,以及其中斷營運的損失 需求分析(Requirements Analysis) perform Business Impact Analysis (BIA) and risk assessment Identify preventive controls 策略定義(Strategy Definition) determine and agree on Risk reduction measures and recovery options to support the requirements 36

37 BIA (Business Impact Analysis)
風險評估(Risk Assessment) 找出風險(Identify risks, know your vulnerability) 列出風險損害(Cost of risk) Financial loss, damage reputation, regulatory breach 風險控制對策(Strategy) 風險依據控制法分類(Group by control element) 控制風險之成本分析(Cost of protecting, likes preventive control) 訂定各風險之優先順序(Priority) 列出不可控制之因子(Out-of-control variances) 選擇可執行/值得執行的控制對策 37

38 Risk Assessment Activities

39 Risk Assessment Activities
(Probability) 39

40 風險評估(Risk Assessment)
風險評估評分範例 40

41 風險控制方法或策略範例 週期性備份資料、AP與OS等重要資訊資產 重要系統或元件採冗餘(Redundant)設計
系統組態設定與需求資訊文件化保存 主中心系統與備援中心系統輪流切換運作 適當的機房基礎設施的管理與監控 預留較大的 Capacity (like DDoS) 41

42 風險控制方式之選擇範例 備份考量 選擇 媒體存放於那裡 什麼資料需要備份 多久備份一次 當事件發生時,需要多快取得備份媒體
授權誰可以存取備份媒體 多久可以從備份媒體中取回資料 選擇 磁帶備份、磁碟備份 差異性備份(Incremental backup)、Full Backup 同步、非同步 File level、Block Level 42

43 Phase II – 產出 BCP第二章 企業營運影響分析(風險評估(BIA)報告) 損害分析
什麼風險→造成什麼損失(Lost impact analysis) 回復所需時間 XX資訊系統或XX業務在什麼Thread下,回復所需時間 Recommended recovery priorities & strategies 各系統或業務的復原優先順序 所採用的復原策略為何 43

44 災難復原規劃步驟之工作區塊 Business Continuity Management Process Model 44

45 Phase III – 執行(Implementation)
成立工作小組,並訂定災難復原執行計畫 (establish the organization and develop implementation plans) 設立待命備份資源(implement Stand-by arrangements)—Checklist/Support Information 評估風險降低程度(implement risk reduction measures) 訂定災難復原計畫(develop IT recovery plans) 訂定標準作業程序(develop Standard Operating Procedures (SOPs))--(Step-by-Step Procedure) 進行災難復原計畫測試-計畫演練(undertake initial tests) 45

46 工作小組範例 Senior Management Official Management Team
Damage Assessment Team Operating System Administration Team Systems Software Team Server Recovery Team (e.g., client server, Web server) LAN/WAN Recovery Team Database Recovery Team Network Operations Recovery Team Application Recovery Team(s) Telecommunications Team Hardware Salvage Team Alternate Site Recovery Coordination Team Original Site Restoration/Salvage Coordination Team Test Team Administrative Support Team Transportation and Relocation Team Media Relations Team Legal Affairs Team Physical/Personnel Security Team Procurement Team (equipment and supplies) 人員工作代理制度 46

47 工作組織範例 47

48 訂定災難復原計畫 災難通告及復原啟動(Notification/Activation Phase) Recovery Phase
Notification Procedure 災難發生時通知誰,做什麼…;復原啟動時通知誰,做什麼… 建立通報表(Tree狀或是表格式) 損害評估(Damage assessment) 提供是否啟動DR之決策參考 啟動復原(Plan activation)(由決策者發佈災難復原啟動) Recovery Phase 復原順序(Sequence of recovery activities) 復原程序(Recovery procedure) Reconstitution Phase Restore original site Test system Terminate operations 48

49 Install/Configure Hardware
Recovery Process 取得足夠資訊以判斷啟動何種災難復原,需制定Emergency Response Procedure Outage Expect Recovery Time Response Reaction Minutes Hours Days Weeks Recovery Time Install/Configure Hardware Install or Recover OS Restore Data Testing Restore Original Site Rebuild Network 49

50 損害評估(Damage assessment)
事件原因 可能擴大影響層面、損害或中斷期間 事件影響範圍 實體設施狀態(機房、電力、空調狀態) IT資產設備狀態(運作、停止運作或部分運作狀態) IT資產損害種類(淹水、火/熱、電力突波) 需替換設備清單(軟硬體設備或零件) 預估回復正常運作所需時間(或稱可能服務中斷之時間) 50

51 啟動復原(Plan activation)
當損害評估(Damage assessment)的報告顯示已經達到啟動復原計畫時的條件(Criteria) 不同系統的啟動條件定義不同 條件(Criteria)範例 影響設施程度範圍 影響系統程度範圍 影響重要系統資源(Critical system or asset) 預估服務中斷時間 啟動復原計畫的決策者需要在DRP中定義 需要授權定義決策者之權利義務 依序接班備援人員的順序也要定義 通告災難復原小組(Notify Recovery Teams) 51

52 復原順序(Sequence of recovery activities)
依據系統重要的優先順序(Priority)來進行復原 以BIA的分析來做為排序參考 有些關聯性(Correlated)順序必須考量 OS->AP->Data Network->(Firewall,…Security Device)->DNS->Server LDAP->AP Server 設備採購->運送交貨->安裝上線 復原計畫無法如期達成時的備份計畫 計畫A->計畫B->計畫C 52

53 復原程序(Recovery Procedure)
由各自的復原工作小組執行其權責工作,各小組有其各自的復原程序,程序應包括 獲得授權進行損害設施或設備修復 通知該損害影響範圍的內外部相關人事 取得必須的資源(office supplies and work space) 取得並載入備份媒體 重裝OS與AP軟體 重新載入資料 測試復原系統之功能(包括資訊安全管控機制測試) 連線上網以及與其他系統間連線測試 成功地運轉復原系統各項功能並進行後續維運 53

54 復原程序範例 54

55 Phase III – 產出 BCP第三章 災難復原計畫 損害評估程序 復原程序 與其他支援廠商的SLA
復原組織架構圖:分工與責任範圍 復原組織下各成員聯絡方式之清單 其他相關的支援廠商聯絡清單 損害評估程序 復原程序 標準操作程序(SOP) 相關檢查核對清單(Check List) 災難復原時所需之設備與設施需求檢查清單,包括名稱/型號、版本、規格、數量等等資訊 與其他支援廠商的SLA 異地備援機房交通路線圖、聯絡電話、食宿資訊 55

56 災難復原規劃步驟之工作區塊 Business Continuity Management Process Model 56

57 Phase IV – 維運管理(1/2) Operational Management Education and awareness
包括內部相關單位組織及外部協力廠商或是(外包人員)。讓災難復原計畫中的日常工作整合進入各員工或是委外人員之工作項目中,融入日常例行公事(讓員工養成習慣)。 Training 標準作業程序(SOP)的操作訓練 Review and Audit 定期Review災難復原計畫,及稽核Education and awareness, Training之執行記錄,確保災難復原計畫日常工作之正常運作 57

58 Phase IV – 維運管理(2/2) Testing (演練) Change Management(異動管理) Assurance
除了第一次建置完的災難復原計畫的測試,後續需要定期(一年至少一次)演練測試災難復原計畫。災難復原計畫之演練測試需要在主管或是稽核單位的監督下執行。 Change Management(異動管理) 依據演練測試結果以及Review災難復原計畫有不符合原目標時,需要有一套計畫修正(修訂)的管理辦法,以確保修正後之災難復原計畫依舊可由相關單位(人員),依據相對的SOP進行日常維護、緊急應變或是災難復原。 Assurance 所有的維護管理工作,都是以確保災難復原計畫持續符合企業永續運作的計畫目標,並且所有日常維護管理工作都是相關 58

59 計畫測試(演練)的範圍 System recovery on an alternate platform from backup media
Coordination among recovery teams Internal and external connectivity System performance using alternate equipment Restoration of normal operations Notification procedures. 59

60 演練方法 沙盤推演(Classroom Exercises) (Desk Check/Checklist) 實際演練
看過所有程序書的程序,沒有實際的操作,紙上談兵式地推演備援是否可以成功 實際演練 實際模擬事件發生,真實切換系統(cutover)或是異地演練(relocation) 60

61 Phase IV – 產出 BCP第四章 訓練計畫 日常維運管理程序 稽核與演練計畫(驗證計畫) 與其他支援廠商的SLA
災難復原計畫宣導(Awareness) 損失評估程序及災難復原程序等訓練 日常維運管理程序 災難復原計畫異動管理 稽核與演練計畫(驗證計畫) 標準操作程序(SOP) 相關檢查核對清單(Check List) 災難復原時所需之設備與設施需求檢查清單,包括名稱/型號、版本、規格、數量等等資訊 與其他支援廠商的SLA 異地備援機房交通路線圖、聯絡電話、食宿資訊 61

62 Q & A 62

