DAV首页
数字音视工程网

微信公众号

数字音视工程网

手机DAV

null
null
null
卓华,
null
null
null
null
null
null
null

我的位置:

share

能够实现基础设施有效监控的十个步骤

来源:慧聪安防网     作者:cofee    编辑:数字音视工程    2011-08-30 00:00:00     加入收藏

能够实现基础设施有效监控的十个步骤

  一、测量

  如果你无法对数据中心的一些数据进行监测,那么你也就无法控制它,这也是为什么监测是这10个步骤中首要的一步。部署传感器可以帮助你搜集电力配置、冷却能力等关乎数据中心安全的数据资料。

  1、温度传感器

  高热密度是数据中心向高密度和复杂性方向发展所造成的严重问题之一。随着密度的增加,制冷负荷的增长,使数据中心问题更加多样化。同一个高密度机架上可能会出现局部热点,也可能会有局部温度低于冷却温度的情况,所以,即便是同一个机架设备温度也会有很大差异。

  在整个数据中心安装部署温度传感器网络有助于确保设备工作温度在ASHRAE推荐的64.4°F-80.6°F范围内。通过对机架多个位置温度的监测,可以精确的控制冷却装置,使其更加有效的运作。

  另外通过传感器网络,还可以放心地把数据中心温度提高到接近ASHRAE所规定的温度上限,例如从65°F提高到75°F。实验证明,服务器入口温度每提高10°F,其制冷耗电量就会减少30%。

  对数据中心送风温度和回风温度的测量都是用于辅助测量服务器进风口温度的,以便更精确地掌控服务器的运行温度。如今,越来越多的制冷系统已经迁移至机架上,而传感器也可以直接连接到冷却装置的某个特定位置上,形成一个小型的传感器网络,服务器入口的温度可以根据对相邻机架温度和冷却温度的测量而进行相应的调整。

  最好的做法是在每个机架上至少安装一个传感器,也可以在冷通道/热通道的机架上统一安装,传感器的位置必须是在该行温度最高的那台机架的顶部。这样也可以监测到是否有热空气从热通道进入到冷通道。

  传感器直接连接到冷却系统的优势在于,当传感器与冷却系统协同冷却系统可以自动调整运行温度,可以消除热点,对热负荷的变化作出反映,还可以协调同一工作区间的其他制冷设备运行。传感器安装的具体位置应该遵循ASHRAE所提供的《数据处理环境热指南》,以便读取机架入口处的温度数据,测量送风温度、回风温度和风量值。

  2、监测电源的使用情况

  功率密度和能源成本上升的同时,能够监测能源的有效使用率对数据中心管理是至关重要的。那么电源监测是如何影响能源使用效率的呢?要通过更多的监测信息对PUE进行讨论。

  为了对数据中心的能耗有一个全面的了解,应该在UPS进行监测,并在机架上安装电源分配单元(PDU)。对UPS进行监测所搜集的数据可以用于计算电源使用效率(PEU),使IT经理确定电源消耗的方向并作出应对措施。利用PDU还能预防发生过载事件,确保设备的电力分布平均。

  最好的IT功耗检查方法就是机架内部的PDUA,机柜PDU的特点是能够对连续运行功率实施综合测量和控制。由于每个机架的负载和机架内的基础设备的功耗都有所不同,所以每个机架都应该安装一个PDU,在双总线环境下,机柜PDU可以监测电源的消耗,多种输入型式与多样的插位组合的PDU在过载时起到保护作用。这就为数据中心的电力消耗管理提供了直接的监测数据,同时也提高了数据中心的效率和可用性。除了有效的电源管理,机柜PDU还能为IT服务价格提供参考和识别未被充分利用的空间。远程开启和关闭功能还能防止因新增设备而造成的过载。

  3、对机柜运行环境的监测

  随着密度的增长,现在单个机柜支撑的计算能力可以相当于过去的整个机房。机柜内设备运行情况的可见性,能够帮助预防其常见的威胁,包括:意外的或是恶意的篡改、水的进入、烟雾、湿度或者温度过高。

  当机柜门被打开、监测到有水或烟雾,或是当温度或湿度超出设定值时,都会触发机柜内的监控单元配置的报警器发出警报。这些“机柜内的眼睛”可以连接到中央监控系统,其环境数据和机柜内PDU所采集的电源消耗数据可以被集成,如果监测出现问题也会通过激活指示灯和报警器发出本地报警。因此,这些设备应该被部署在高密度机架和机架内的关键业务设备中。

  4、液体泄漏监测

  数据中心内液体泄漏会造成数千万美元的设备损坏和失去大量的数据,严重影响客户交易和企业的生产力。液体泄漏监测系统利用部署在不同位置的传感器探测整个数据中心,通过及时报警防止设备损坏。

  泄漏监测系统可以作为一个独立的操作系统进入到中央监控系统,这样就简化了报警管理。无论那种方式,它都是让数据中心经理了解其运营状况的传感器网络的一个重要组成部分。

  二、控制管理

  4、精密制冷系统的智能控制

  把智能控制整合到房间空气调节器里,可以更高效、更精确地控制温湿度。智能控制系统可以协调多个制冷机组运行,使个机组之间实现功能互补并避免冲出。例如,对湿度的控制,绝对湿度的控制方式可以按空气中的水分含量控制湿度,不会因温度波动引起相对湿度波动,造成机组不必要的加湿或除湿动作,也节约了不必要的能耗。数据中心或者机架级制冷系统的控制系统还可以缩短管理人员对系统问题的响应和维护时间,控制系统还能根据所搜集的数据对组件进行预测分析,对整个系统维护提供依据。另外,详细的事件日志、服务历时记录、备件清单都能提高服务的效率。

  5、供电系统的智能控制

  现在,数字化和智能化大大优化了UPS供电系统的性能。UPS的智能化主要通过系统的控制软件实现。在系统运行状态识别与控制方面,通过内部传感器和状态逻辑及识别系统所处的运行状态,判定系统运行程序和运行是否正常。数字化则是采用数字信号处理算法,有效地解决并行系统之间的相互沟通问题,以减少故障机会。在大部分情况下,还能自行诊断故障并且随即解决问题。如果遇到用户预先设定的重大故障,则会直接报警。

  通过能源优化和智能并联等特性还能使系统更有效地运作。能源优化模式在提高UPS系统对IT负载供电效率的同时,还具有调节功率的特点,例如在电力需求不高的周末或晚上,可以对供电功率进行调整,就能有效避免不必要的能源消耗。并联智能控制为模块化UPS提供了一个提高效率的途径,它不仅能对多模块并联UPS进行智能管理,还可以实现自动关闭不需要支持负载的UPS模块,以提高系统效率。

  6、集中监控和管理

  集中监控的目标就是要能够通过管理与技术的应用,对基础设施与IT基础架构的运行情况进行监视,实现故障与异常的实时发现与通知;此外还可以通过对监控数据搜集与整理,为容量管理、事件管理、问题管理、符合性管理提供分析的基础,最终实现数据中心高可用性的目标。

  目前,数据中心的供电系统和制冷系统都可以显示运行数据,例如可以显示机架服务器的入口温度,这些工具的使用都推动了集中监控系统的发展。

  7、报警和警报的管理

  对数据中心基础设施集中监控的目的是最大限度地减少系统停机时间,及时有效地应对系统问题。集中报警管理系统为数据中心提供一个统一的运营窗口,对临界报警这种比较严重的事件可以做到优先处理。对多个同时报警的故障,可以根据对业务的影响度决定其处理顺序。

  更近一步的说,管理人员可以根据监测系统的数据来分析设备的运行状况,并执行有效的维护计划。

  8、监测能源使用效率

  在大多数情况下,数据中心并不会安装相应的能源使用使用监测设施。很多数据中心的管理员觉得安装这样的设施很没有必要,这对提高数据中心的能源使用效率并没有多大的效果。其实并不是这样的,建立一套能源使用状况监测系统对于提高能源使用效率有着很好的激励作用,它能够很直观的显示出数据中心内部的能源状况。这可以提醒数据中心的管理员应该时刻关注数据中心的能源使用率并提高。

  建立这样的能源监测系统,可以根据数据轻松算出PUE值,有利于IT经理跟踪能源消耗,从而分析和优化能源的使用。

  9、电池监测

  为了防止数据丢失和提高正常运行时间,大多数数据中心需要一个专用的电池监测系统。电池监测系统可以把电池的潜在故障通知给管理员,最好的做法是实施一个监测系统,并跟踪串联电池组中的每节电池的健康状况。有效的电池跟踪监测系统包括对内阻参数的测量和对蓄电池充放电情况的监测,以确保测量的准确度。

  UPS的许多用户认为UPS本身已带蓄电池监测功能,无需再安装另外的蓄电池监测系统。确实,大部分UPS都带有一定的蓄电池监测功能,可以监测组压及记录放电曲线,但是对于准确掌握每节蓄电池的运行状况这些监测是远远不够的。UPS一般只能监测组压,不能监测每节电池的电压,一旦某节电池失效,组压往往还是正常的,而对于串接的电池组来说,这是非常危险的。

  10、远程监控管理

  在减少能耗的趋势下,数据中心远程监控和管理应运而生。你可以用最小的人力成本来执行关键任务工作,且不管你身在何处,这也就是无人值守的概念。

  但无论如何,远程管理确实节约了大量的成本。一个数据中心的管理者,只须考虑机架上的虚拟主机、高效的安全人员以及他的数据中心的地理位置,然后用远程管理操作数据中心,所有他所要做的就是坐视成本的急剧下降。此外,限制访问的另外的好处是,实际进入数据中心接触到计算机的人少了,因此发生意外及安全漏洞的机会也少了。这种远程管理用远程输入输出系统访问数据中心的服务器,这种方式还可以提高反应时间。通过这个系统,也可以实现地理上的独立性。

  三、基础设施监控的效益评估

  通过这10个步骤,数据中心关键设施的可用性和效率是可以量化的。几乎每个步骤都有助于监测数据中心的可用性,并能分析系统潜在问题从而提高响应速度。从整个监控系统中,管理员可以准确知道任何一个机架在什么时候发生了什么事件,集中报警管理和电池监测等基础设施监控从根本上消除了数据中心停机最常见的原因。

  在许多情况下,这些系统是相对容易实现的,而且一旦安装,可以对数据中心优化提供可视的和必要的控制。

免责声明:本文来源于慧聪安防网,本文仅代表作者个人观点,本站不作任何保证和承诺,若有任何疑问,请与本文作者联系或有侵权行为联系本站删除。
扫一扫关注数字音视工程网公众号

相关阅读related

赛普,

评论comment

 
验证码:
您还能输入500