机房建设、机房工程、IDC机房、综合布线、集团电话、电话交换机--北京兆维瑞通信息技术有限公司
机房建设、机房工程、IDC机房、综合布线、集团电话、电话交换机--北京兆维瑞通信息技术有限公司
 
机房建设、机房工程、IDC机房、综合布线、集团电话、电话交换机--北京兆维瑞通信息技术有限公司
 
 
  机房建设、机房工程、IDC机房、综合布线、集团电话、电话交换机--北京兆维瑞通信息技术有限公司
搜索:
 
 
  集团电话 十三年集团电话专业经验--北京兆维瑞通信息技术有限公司 电话交换机 十三年电话交换机专业经验--北京兆维瑞通信息技术有限公司 公共广播 十三年公共广播、智能广播专业经验--北京兆维瑞通信息技术有限公司 机房工程 十三年机房建设、机房工程专业经验--北京兆维瑞通信息技术有限公司 会议系统 十三年会议系统专业经验--北京兆维瑞通信息技术有限公司 综合布线 十三年综合布线、机房布线专业经验--北京兆维瑞通信息技术有限公司 呼叫中心 十三年呼叫中心专业经验--北京兆维瑞通信息技术有限公司 机房建设 十三年机房建设、机房工程专业经验--北京兆维瑞通信息技术有限公司 公司信息  
 

 

集团电话

机房工程

电话交换机

公共广播

会议系统

综合布线

呼叫中心

机房建设

 
新闻中心
   
 
您现在的位置 首页 -- 数据中心故障防范及其应对
发布时间:2014-5-26
来自: 现代数据中心

数据中心故障防范及其应对

   今天,数据中心已经成为企业信息化、行业信息化和城市信息化的核心所在。随着国家的经济发展和社会管理对信息系统依赖程度的提高,特别是在众多重要行业的数据大集中后,信息系统的安全性、可靠性、可用性日益突出。

  Tier带来的一系列数字

  数十年来,数据中心基础设施设计经历了四个阶段,这体现在Uptime研究所的分级系统中。Uptime研究所将数据中心基础设施的四个级别分别定义为:

  T1/第一级数据中心:基础级,出现于上世纪六十年代,第一级数据中心的可用性为99.671%。

  T2/第二级数据中心:具冗余部件级,出现于上世纪七十年代,第二级数据中心的可用性为99.741%。

  T3/第三级数据中心:可并行维护级,出现于上世纪八十年代,第三级数据中心的可用性为99.982%。

  T4/第四级数据中心:容错级,首次出现于1994年,(首次出现了双电源的计算机设备)第四级数据中心的可用性为99.995%。

  对这4个级别的年平均故障时间,UPTIME研究所也做过统计分析:

  TierI级(T1):年平均故障时间28.8小时;

  TierII级(T2):年平均故障时间22小时;

  TierIII级(T3):年平均故障时间1.6小时;

  TierIV级(T4):年平均故障时间0.4小时。

  数据中心故障时长带来的损失

  权威机构统计,不同行业数据中心宕机一小时所导致的损失分别如下:

  以金融行业为例,如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。

  可用性取决于数据中心全生命周期的全部投入

  因业务持续性管理的需要,人们都期望数据中心能达到5个9(99.999%)的高可用性。

  目前,中国众多的数据中心都处于T2/T3阶段,T4级的数据中心尚不多见。

  近年来,国内用户对TIER的认知渐深,逐渐接受抵御故障的能力和建设成本成正比的观念:机房等级越高,造价越高,T4机房的建设成本是T2机房的1倍。但也存在误区:高等级机房=高投入;T4机房=高可用=高枕无忧。

  人们存在误区大部分原因是忽略了整个数据中心生命周期中从规划、设计、建设到运维,每个阶段中对可用性的相关影响因素。尤其是用户对数据中心正式运营投产前的第三方测试验收以及数据中心运行阶段的机房健康评估的重视不够。

  “浴盆曲线”传递数据中心故障率信号

  加故障曲线图

  实践证明,数据中心的故障率随时间的推移呈图示曲线形状,这就是著名的“浴盆曲线”。故障状态分三个时期:

  a)初始故障期:故障率由高而低。材料缺陷、设计制造质量差、装配失误、操作不熟练等原因造成。

  b)偶发故障期:故障率低且稳定,由于维护不好或操作失误造成。最佳工作期。

  c)耗损故障期:故障率急剧升高,磨损严重,有效寿命结束。

  2012年,UPTIME研究所对全球94个机房做了相关调查,并整理出“机房异常事件报告”,在此报告中指出:291起事件中,41%由制造原因导致,39%由运维原因导致;8起故障中,63%由制造原因导致,25%由运维原因导致;213起事件被弥补和挽救,技术人员的原因占到29%,运维的原因占到13%。

  数据中心故障的应对思路

  为了早期防患于未然,将故障扼杀在萌芽状态,用户需要加强对对数据中心正式运营投产前的第三方测试验收以及数据中心运行阶段的机房健康评估和运营管理认证的重视

  数据中心验证是一个系统性的质量验证过程。此过程验证并记录该数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。

  验证的目标就是挑出数据中心所有现在的问题和潜在的弱点,通过测试及验证,最大化降低系统性风险,提高数据中心的可靠性、可用性程度。机房竣工前关键节点的施工质量、安装工艺、系统可用性的确认。减少及规避机房建设阶段的问题及隐患,降低带病工作的可能性。获得设备、设施第一手真实的相关数据,评估及优化设备、设施的配置以达到节能的目标

  以汽车为例子,在生产线上有严格的质量管理,可以替代监理了?但是足够了吗?汽车也有测试设备,但没有上路实际测试,我们敢开吗?

  此外,正如人需要体检一样,运行三-五年后的数据中心机房需要健康评估!以便对如下状态有清晰的了解和报告,减少运行隐患,提升运维管理水平:

  基础设施配置合理吗?

  故障防范能力如何?

  供电、制冷设备容量充足吗?运行正常吗?

  气流组织合理吗?制冷效率高吗?

  运维体系完整吗?运维流程有效执行了吗?

  业务增长时,还有扩容的能力吗?

  什么改造方式能延长现有机房的使用寿命?

  什么时候需要新建机房了?

  应对举例:M&O帮助提升运维能力

  UPTIME近年推出的运营管理认证审核可以从运行的角度促进数据中心内部多方面的沟通,共同分享有效的工作制度和流程。其审核过程中的检查条目对于数据中心挖掘自身运行时间的潜能、最大限度的发挥基础设施优势、实现有效运行、提高能源利用率都是必不可少的。

  M&O认证并不是Tier认证的替代者。对于一个满足一定Tier等级的数据中心来说,恰当的基础设施配置结构和持续运行的保障都是必不可少的。因此,Tier标准(运行的持续性)的所有要素,例如Tier认证途径、检查内容、风险评估和改进措施都是应用于基础设施的,并与Tier的分级系统紧密相连。M&O认证适用于那些由于设备使用年限或者组织的业务决策而无法获得Tier认证的数据中心。

  为了达到M&O认证的标准,数据中心必须以24×7全天候运行为目标,也就是说数据中心的业务要求是建立在持续运行基础上的(不论是否需要间断时间来进行维护)。

  Uptime专业咨询人员是以运行持续性的三个原则(流程是否存在?员工是否了解流程?流程是否得到严格的执行?)为基础,来衡量检查条目中的每一项是否具备有效性。

  M&O认证的审核内容分为5大类:

   人员配置和组织架构

  设备维护

  培训

  计划、协调和管理

  运行条件

  应对关键:故障防范思路贯穿数据中心全生命周期始终

  从事数据中心技术咨询服务的中科仙络技术咨询服务公司认为,基于故障防范的

  数据中心基础设施生命周期管理咨询,将为关注高可用的用户,从数据中心生命周期的不同阶段提供更具价值的支持。

 
公司简介 | 最新公告 | 成功案例 | 资料下载 | 联系我们

Copyright © 2003-2016 北京兆维瑞通信息技术有限公司(阳光畅想) 版权所有 京ICP备12011843号

服务热线:010-66018151 66019695 传真:010-51665666 邮箱:pf8848@vip.sina.com

机房建设 机房工程 集团电话 综合布线 电话交换机 本站最佳浏览分辨率:1024 x 768 Sitemap JiTuanDianHua