机房动力环境监控系统 实时监测 优化
- 产品规格:
- 发货地:上海市嘉定区嘉定镇街道
机房动力环境监控系统的概念:
机房动力环境监控是指机房动力环境及图像集中监控管理,其监控对象主要是机房动力和环境设备等设备(如:配电、UPS、空调、温湿度、漏水、门禁、安防、消防、防雷等)。
机房动力环境监控系统存在的意义:
随着社会信息化程度的不断提高,机房计算机系统的数量与日俱增,其环境设备也日益增多,机房环境设备(如供配电系统、UPS电源、空调、消防系统、保安系统、漏水检测系统等)时时刻刻为计算机系统提供正常的运行环境。因此,机房动力环境监控尤为重要。
由于机房安*可靠稳定运行的重要性,较大型的信息中心都规划和增加了动力环境监控系统。但是一些较小的信息中心如小型基站、小型机房等,由于成本和网络的原因,这些重要的信息中心却没有适合的动力环境监控产品和方案,因此信息中心设备的安*稳定运行缺少了有力的保障。
针对以上这种情况,市面上出现了一体化动力环监控系统方案,该方案通过采用智能采集监控服务器为核心,配以一些简单的外围传感器件,为小型机房、动力环境监控应用提供高可靠性、高度适用性、的一体化解决方案。系统提供中心环境的监测、控制、告警、预警等功能,为这些小型信息中心设备的安*运行提供保护,当设备故障时及时通知工作人员,大大提高对故障的快速反应能力。
采取怎样的措施去进行机房动力环境监控呢?
(1)监控平台数据不刷新问题的解决。运维人员需熟知动环监控系统架构和网络拓扑,从单点设备故障到网络故障进行排除,对重要设备必要时可优化系统结构或网络拓扑,对采集设备或装置进行冗余备份,或对重要监控对象通信采用A、B双网通信。
(2)采集数据准确性问题的解决。检查智能仪表装置或第三方设备的通信协议是否准确,与原厂家技术支持核实设备协议文本正确性,如更换智能仪表未核对通信协议,将导致数据不准确或无法采集。检查通信故障,首先检查物理连接是否存在问题,然后对通信配置进行检查,检查波特率、校验位、串口的设置等是否存在问题。检查装置或采集箱等设备、温湿度探测器等硬件自身是否存在故障,排除设备硬件故障导致数据采集不准确的问题。
(3)实时告警问题的优化。首先严格控制智能设备串接数量,避免串接设备数量过多引起数据上传缓慢,进而导致告警延迟。合理配置FSU扫描时间,通过调整动环设备扫描周期来缩短采集装置对各个测点的问询时间,以提高采集速度。其次合理选择设备测点,对重要测点进行合理选择和优化,避免扫描过多的测点造成采集器负担过重,进而影响采集效率。另外,运维人员应避免非重要数据的扫描占用过多资源,引起采集过慢。再者通过软件手段控制告警频发和非合理数据引发的告警,可增加告警回差屏蔽功能,数据采集值超出合理范围的,通过设置有效的阈值上下限,屏蔽此部分数据,误告警。电磁干扰在传输过程中产生的误告警,除在软件端进行有效门限屏蔽外,还可在传输线路上套装抗干扰磁环以减少干扰。*后采用人工智能等先进手段增加告警逻辑关系分析和对告警信息进行合理分类。如增加告警溯源功能,划分主次告警,确定告警产生设备的主从关系,进而对告警信息进行有效优化,以减少告警“信息”,同时不漏掉重要告警信息。
软件层次图示:
机房动力环境监控中常见的问题有那些?
动环监控系统运行以来,出现过监控平台数据不刷新,监控平台电脑“死”,采集数据不准确,系统告警漏报、误报、频发(告警信号抖动)及延迟报警问题。
(1)监控平台数据不刷新。这种情况在实际运维工作中*常见,整个监控平台软件数据不刷新或系统中某设备数据不刷新,导致运维人员无法收到告警信息。
(2)采集数据不准确。这种情况主要体现在监控画面显示的数据与现场设备实际运行数据不符,若画面显示的数据超过告警的阈值就有可能造成系统误告警或不告警,影响设备的运行安*。如智能仪表部分测点值与系统显示值不一致或单位不同,将导致该设备失去监控。在冷热通道温度检测过程中,软件显示的数值超过告警上限阈值引发告警,而运维人员现场检查后并未超限,造成的浪费。
(3)实时告警问题。动环监控系统告警漏报、误报、频发、延迟报警及告警信号抖动等问题是困扰数据中心运维工作人员的严重问题。数据中心运维值班人员7×24h应急值班,告警信息误报、频发将给人员造成很严重的身体伤害;而告警信息的漏报与延迟将导致设备出现故障时未能及时通知从而导致更严重的机房事故。
①告警漏报:告警漏报主要原因是告警级别设置过低或设备通信中断或设备信息故障等导致重要告警信息缺失,未能及时上报运维人员,从而错失重要告警信息,将导致严重后果。
②告警误报:告警误报是衡量动环监控系统可用性的重要指标,采集装置受到电磁干扰或周围环境改变、协议解析有误、采集装置故障、仪表故障、板卡端口故障等均会引起误报,如精*空调四周部署的漏水绳因灰尘或沙土等导致电阻增*从而引起误报。
③告警频发:告警频发类似于“信息”,可分为两种情况:一是同一告警信息频繁多次报送给运维人员,原因是当某一测点触发告警时,采集值在告警阈值附近来回波动;二是同一事件触发机房多个动力设备同时告警,如机房停电或闪停后恢复,各相应重要开关、电量仪、UPS、机柜PDU等多设备引起的“电话短信”。④告警延迟:告警信息是否及时上报给运维人员是考验监控系统是否合格的重要指标之一,而上报时间应设置为用户可选项,如电力闪断立即恢复的情形,可设置一定延时;而重要信息应能在15s内完成上报。
m.xfdq88.b2b168.com