服务器
    作者:贾凯强

    谷歌云强行下线自己打脸,18分钟“乌”云

         [ 中关村在线 原创 ] 暂无评论

     4月11日,谷歌云陷入了前所未有大麻烦之中。由于两个bug的产生,致使谷歌云全线下线,长达18分钟的无云时间使得谷歌云变成了乌云。

    谷歌云强行下线自己打脸,18分钟“乌”云

      谷歌是全球最大的云服务提供商之一,谷歌云在公有云的圈子内也算是巨头级别的存在。越是强大的公司就越不允许有任何的瑕疵,18分钟的乌云时间却足以砸了谷歌云的金字招牌。现在,谷歌的母公司Alphabet已经就此事件的原因进行了解释。Google 的工程副总裁Benjamin Sloss Treyno表示将进行“7×24”的全天候个人道歉。

    谷歌云强行下线自己打脸,18分钟“乌”云
    Benjamin Sloss Treyno及其妻子

      为什么是Treynor背起这口大黑锅呢?这事也确实与他有着不可分割的关系。作为谷歌的工程副总裁,Treynor的主要工作就是“确保 Google 的网站永不掉线”。谷歌云下线18分钟如此重大的过失让他负责并不为过。

      仅仅道歉是不够的,Treynor也就该事件的原因对外进行了解释。起初,谷歌的工程师要对谷歌的网络配置进行瘦身,谷歌计算引擎(Google Compute Engine ,GCE)中的部分IP模块长期未使用,工程师选择了对其删除并让谷歌的自动化系统在谷歌的网络系统里完成剩余的传输工作。

    谷歌云强行下线自己打脸,18分钟“乌”云
    GCE是谷歌云的核心

      而IP模块是用于帮助用户数据连接传输到谷歌云的重要模块。于是事故就这样发生了,在机缘巧合的时候,一个IP模块从其配置文件中被删除时,用于网络配置管理的其他配置文件并没有完成相应的传输转移,于是乎这个模块传输失败了。

      当传输失败时,谷歌通常会选择还原故障部分到之前的位置,然后添加新的模块重新传输。但是这次,前所未有的软件bug被触发了。这次传输失败后,并没有将故障部分还原到原来的位置,而是将GCE所有的IP模块进行了重新配置。而这次配置的用的就是用于更新的不完整的IP模块。

     

    谷歌云强行下线自己打脸,18分钟“乌”云

    谷歌浏览器也有金丝雀版本

       如果说仅仅是这一个bug,那么正常情况下也不会有太大的问题。谷歌有一个专门巡查此类问题的系统“金丝雀(canary step)”,但是这次金丝雀也出现了一个bug。因为这个bug推动了系统认定此次新的配置有效,并且在全范围内逐步开始推出。

     

    提示:支持键盘“← →”键翻页
    本文导航
    • 第1页:谷歌云:18分钟从有云到无云

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询