避免数据中心停机 基础设施人员如何合作

IT和设施人员越来越依赖彼此来为数据中心客户提供高可用性的服务。你的公司是否有效地处理了这个关键关系中最重要的部分?要自信地回答这个问题,了解一下这两类人员共同承当的哪些责任导致了最常见的可用性故障是有帮助的。

我国南方多省份夏季会出现暴雨连袭现象,多地因此受到影响。今年,我国湖南全省三条大河的水位不断上涨,水位全线超警戒。江西境内主要河道12个站水位超警戒,江西省调度的大中型水库4座超汛限。鉴于广西多地出现洪涝灾情,广西防汛抗旱指挥部7月1日决定自16时起,将自治区洪涝灾害Ⅳ级应急响应提升为Ⅲ级应急响应。

之后,我们就可以采用这些通过验证的方法来将可用性风险减少至最小。行业数据显示,在由设备导致的计算机运营故障当中,大多数是发生在机房而非基础设施建筑中。

在过于异常的天气里,很多情况已经远远超出了人们的预料之外。这对于对环境有着严格要求的数据中心来说,无疑是一场严峻的考验。数据中心对于安全性有着极高的要求,即使发生地震、水灾等自然灾害和设备故障、火灾等突然事件,数据中心也必须具备很高的安全性和可靠性,以保证企业业务的连续性。

背后的原因很简单:人们通常是在机房而非放置支持设备的建筑物里出现。风险通常是复杂的,一方面是因为机房由多个部门管理,一方面是因为支持机房的多个系统的运营需要各种各样的技能。

数据中心一旦有水灾事故发生,就会瞬间造成设备损坏和信息丢失,会带来无可挽回的经济损失。那么,我们先来看一下几个曾遭受水灾的案例:

鉴于这些因素,发生混乱及失误的机率非常高。要避免这种情况,就需要各个部门通力合作,清晰定义关键任务的具体流程及责任人。

案例一 美国Hunt Valley数据中心遭遇水管爆裂

布线和连接流程

图片 1

这是一个最需要优先考虑的事项。一个成功的IT/设施团队需要清晰地界定哪些部门及个人可安装及移除机房中的电源、网络电缆及连接。各个部门需要就各自负责的工作划分清晰的界线,并达成一致性意见。他们需要定义设施部门应将电源线连在服务器机柜的哪一边;

遭遇水管爆裂的Hunt Valley数据中心

哪个部门将负责将配电单元(PDU)whip连接到一个独立的计算机设备上;

2008年,美国Hunt
Valley数据中心洗手间的一根管道爆裂并涌出大量的水。好在该中心的服务器机柜设计较为合理,离地间距为4英寸(1英寸=0.0254米),管理人员及时的发现了这一险情,并快速抢修,总算是有惊无险。

哪个部门有权移除网络连接器等。图表或相片需要配上职责界限的书面说明,以进一步明晰各自的职责。每个部门只能允许2~3个人来负责这些关键布线任务:其中一个人负主要责任,而其他人则负责支持工作。这些角色的连续性是非常重要的,因为连续性可以保证一致性,并将发生误差的可能性最小化。

案例二 水淹土耳其Vodafone数据中心

硬件总体规划

图片 2

从IT及设施部门各自分派一个人来负责计算机硬件总体规划的准备和管理工作是下一个最重要的目标。这两个人需要每周碰头,决定新购进的电脑应安装在楼面及机柜中的哪个地方。

伊斯坦布尔Ikitelli地区所处位置(截自谷歌地图)

需要准备一张计算机机房平面图,并根据环境的变化而定期更新。这张平面图需要展示指定区域(为特定类别计算机硬件提前预留的空间占到3/4)中所部署的所有机柜、机架及独立设备。机架的正视图应显示从底部到顶部需要安装的硬件及其具体安装位置。IT代表人员需要确保总体规划会考虑到各项特殊要求,包括连接、与其他硬件或网络设备的通信需求及距离限制等。

2009年9月9日,土耳其伊斯坦布尔遭遇暴雨并引发了洪水。由于地势低洼,疯狂肆虐的洪水淹没了该市Ikitelli区的大部分地段,也淹没位于该区的Vodafone数据中心。城市里的很多Vodafone(沃达丰)手机用户都因该数据中心被淹而无法使用通信服务。

设备团队成员需要确保总体规划考虑专门的制冷及电力需求,例如,如果制冷功能从活动地板提供,就在机柜底部放置一个高热能的服务器。IT及设施管理人员都需要委派一名后备人员。没有IT及设施管理总体规划负责人的允许,不可安装或拆装计算机硬件。

案例三 澳大利亚Datacom数据中心遭暴雨冲击

更少的人力——更少的问题

图片 3

第三个减小风险的方法就是减少可以访问机房的人员数量。如果将访问机房的人数最小化,发生失误的风险性也可大大减少。这需要高级管理人员强有力的支持。只有每周至少需要在机房工作一天的人员才可在没有人陪同的情况下独自进入机房。其他人员在进入机房时都需要有他人在场。入选的某些工作人员,如果对机房工作程序有一个透彻的了解,可使用临时工作卡进入机房。每个季度,需要由管理人员审阅这个访问清单,以确定个人再次访问机房的要求。

遭到暴雨冲击的Datacom数据中心

保证程序上的清晰性

2010年,大暴雨将Datacom主机代管中心的天花板冲毁,使得服务器、存储和网络设备都遭损坏。起初该公司否认出现问题,但随着事故在网络上得到曝光,人们逐渐知道了真相。

设施和IT人员还可采用另外一种方式大幅度减少机房环境的风险性:每个将要进入机房的个人需要阅读整套数据中心机房工作程序指南。这个文件应该描述工作活动中的所有注意事项,通常是10~15页长。各个部门的经理需要与允许进入机房工作的员工及供应商(不管是否有人陪伴)一同阅读这份文件。签名的复印件需要归档并且每年更新。对于这些有人陪伴参观机房(非工作)的人员,需要阅读该文件的简缩版。

另外,我们这里还要介绍一种意外事件带来的潜在威胁。当IT管理员周末步入数据中心查看的时候发现,机房顶端的天花板已经湿透并逐渐往下渗水。渗出来的水流入到地面并不断积压。管理员发现后立即将水桶放到渗水的位置,避免水位进一步提升。

通过针对性地处理这些常见的导致运营障碍的干扰性因素,并采用以上提及的清晰界定的流程,数据中心公司可大大提高数据中心运营的连续性。此外,应用的连续运营也将大大提高数据中心正常运行时间的长度。

图片 4

数据中心的天花板漏水

经过检查发现,这些水来自于空调管道,而这些管道被铺设在天花板上方,而且没有经过严密的密封处理。

还有一些常见事件如:

由机房专用空调导致的问题:
由于排水管的坡度较小、水管偏细、腐蚀及堵塞等带来的排水不畅;
与加湿器连接的软管紧固件断裂; 上水管处快接头连接不良
吊顶空调接水盘溢水。

温度偏差造成的问题:
吊顶空调送风温度低,且室内相对湿度高,易造成结露滴水;
机房内吊顶上、活动地板下与普通办公室连通,机房内温度过低,吊顶内楼板结露滴水;
机房内温度低,室外高湿新风直接送入机房,机房内的原有物件、计算机、活动地板、隔断全部结露;

其他成因: 新风用加热水管冻裂; 室外雨水通过穿管孔入内;
由室外玻璃窗进雨水; 加湿罐在工作时,被电极烧穿。

发表评论

电子邮件地址不会被公开。 必填项已用*标注