服务器
    作者:鲁畅

    解放HPCer双手 EasyOP在线运维平台上线

         [ 中关村在线 原创 ] 暂无评论

      常常听人说做IT的苦,谁知做运维的更是苦。每天心系机器,生怕哪天他闹点小脾气,一生气,不干了。要知道,对于HPCer,每一次的宕机,都极可能是巨大的损失。

      如何才能确保HPC正常运转呢?先天条件上,HPC自身要有良好的稳定性;而后天方面,要有专业的人员来管理维护HPC。所以,对于已经购买HPC产品的用户来说,后天的努力就成为了关键。只是,专业的人员又从那里来呢?

    解放HPCer双手 EasyOP在线运维平台上线
    运维难 专业运维更难

      根据中国软件行业协会数学软件分会常务副秘书长姚继锋博士的调查显示:目前,大多数正在运行的HPC中心,尤其是中小型中心,缺乏专业的运维团队,从而导致HPC寿命简短,故障增多,使用效率低,无法实现其应有的价值。全中国仅十来个屈指可数的顶级超算中心能拥有自己的运维团队。有条件的中心也尝试外聘核兼职的方式来做好运维的相关工作。且不说费用和编制等无法克服的障碍,运维本身的门槛高,要求的技术面广(懂硬件,懂算法,懂应用),合适的人少之又少。如果采用兼职人员,质量和稳定性有可能没有保证。姚继锋博士认为:相比学生、兼职这类非专业的运维人员,最了解HPC产品的, 莫过于它的生产者。这大抵和知子莫若母是一个道理吧。特别是一个有几十年HPC设计,生产,管理,维护经验的团队,那曾经绝对是可望而不可即的。

    解放HPCer双手 EasyOP在线运维平台上线
    EasyOP在线运维平台

      为此,中科曙光在去年11月,开始对EasyOP在线运维平台进行试运行。经过六个月的试运行,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料6大领域,对所有接入集群资产全面监控的指标超过180项。

      统计显示,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机,从侧面反映了曙光集群系统的高可靠性。

    解放HPCer双手 EasyOP在线运维平台上线
    专业、安全、全面 

      EasyOP的首批试用者中科院物理所的徐力方研究员不无兴奋地表示:"接入EasyOP后,我们的运维压力大大降低了,运维成本和人力投入也都减少了,而且HPC集群的安全性和使用效率也得以提升。我们终于解放了。"

      从EasyOP的试用者的反馈可以看出,EasyOP不仅保障了HPC的高效运行,同时解放了像徐研究员这样的一大批兼职看护HPC的学术专家,让他们能把精力放在自己的学术研究和更加重要的工作上去。目前,EasyOP在线运维平台是免费向用户开放的。

      截止4月21日,曙光EasyOP在线运维平台宣布正式上线了。


    提示:支持键盘“← →”键翻页
    本文导航
    • 第1页:EasyOP在线运维平台试运营半年

    周关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询