免费的一旦你订阅了《可靠性周报》,你就需要一份《正常运行时间要素实施指南》

想象一下:像许多美国人一样,你拥有某种机动车。那辆车载着你从A点到B点,日复一日。但是,如果你像大多数车主一样,你不会考虑基本的日常维护,即使是你最依赖的东西。这更像是一种断续关系。不幸的是,在当今的数据中心行业中,这种类型的关系并不少见。各类设备每天运行24小时,一年365天,一年算下来是8760小时。数据中心不能承受任何设备的故障。因此,预防性维护(PM)是必须的。

预防性维护例行维护,以确保资产可靠性,并消除可能发生的任何设备故障和/或停机时间。预防性维护应被视为一种积极主动的方法,它建立了对资产的定期检查,以验证可靠性,并延长资产的寿命。

数据中心不能承受任何设备的故障

如今,数据中心运营商花费了令人难以置信的巨额资金来为即将到来的租户完成最新的数据大厅,但当原始设备制造商(OEM)的保修到期时,他们可能不会在前端考虑是否有一个PM计划。诚然,新设备的大多数问题都是在启动和调试期间发现的,但当事故发生时,三到五年后会发生什么?

反应性维护是一些设施的常见做法。与预防性维护相反,反应性维护本质上是等待事故发生。这种做法似乎是一种节省成本的策略,但是当发生计划外停机时,您将花费比您有PM计划时更多的时间来解决问题。这种延迟的维护可能会导致对您的设施的负面宣传,反过来,损害客户的信任。PM计划旨在减轻这些不可预见的停机,并帮助节省设备时间和金钱。

不定期维护的设备会造成危险和不安全的工作环境。有一个适当的PM计划有助于确保员工在工厂的安全,减少伤害和事故。

更重要的是,经过工厂培训的技术人员应与数据中心设施经理合作执行pm,以确保不违反服务水平协议(sla)。例如,如果SLA要求托管服务提供商每年执行例行维护,以维护协议并确保客户的数据不受损害,则必须满足这一要求。

在任何好的PM计划中,另一个需要考虑的方面是设备生命周期计划,IT经理需要:

  • 定期检修设备;
  • 在设备出现故障前更换;
  • 修改或更新设备;
  • 设置生命周期日期并在必要时进行替换。

除了良好的PM计划外,制定电源保护计划(PPP)以消除或减少数据中心的停机时间也很重要。每一个PPP都需要包括以下流程:

  • 由工厂培训的客户服务工程师每年进行全面的预防性维护访问;
  • 对所有部件进行彻底的目视检查(如灯泡、显示器、缺少的硬件、清洁度),并根据需要进行修正;
  • 所有监测组件的验证和校准;
  • 验证系统的正常运行和状态;
  • 系统检查负载平衡,kVA使用情况和楼宇报警状态;
  • 提供的所有服务的完整报告;
  • 对内部连接进行红外扫描,在部件变质和灾难发生前找出导致部件变质和灾难的热点;
  • 停机时4小时响应时间;
  • 24小时全天候获得oem的电话技术支持;
  • 纠正任何问题或保持系统良好运行状态所需的零件和人工费用;
  • 保证零部件的可用性;
  • 现场备品备件工具包。

图1

图1:现场服务技术人员验证静态转换开关电压并进行目视检查

图2

图2:现场服务技术人员在例行PM访问期间确认静态转换开关的校准和功能

毋庸置疑,在停机期间,现场工厂备件对于缩短平均维修时间(MTTR)至关重要。虽然工厂技术人员可能能够快速响应,但没有现场零件意味着从OEM发货需要更长的等待时间。

确保最大正常运行时间的另一种方法是确保工厂的团队经过OEM的工厂培训。这消除了经常引起客户焦虑的OEM烦人的服务呼叫。

随着物联网(IoT)和半自动驾驶汽车的大规模发展,数据中心和云存储的可靠性是必要的,而不仅仅是一个不错的功能。预防性维护在数据中心运营中始终扮演着重要角色。但是,如果没有适当的远见和经过深思熟虑的维护计划,数据中心经理就会在不经意间引导业务出现比需要的问题更多的问题。

通过制定预防性维护流程并为可能的风险因素做好准备,可以降低风险。通过这种方式,如果确实发生了停电,影响也会降低,组织也不会成为下一个数据中心故障的头条。

杰森Spivey

Jason Spivey是位于弗吉尼亚州里士满的配电服务公司(PDI)的全球产品经理。Jason拥有超过10年的行业经验,专注于数据中心服务。www.pdicorp.com

横幅
每周收集推荐的文章和视频,以促进您的可靠性之旅。bob体育双赢彩票就在收件箱里
立即下载