早上一条公众号新闻火了,标题是
《腾讯云硬盘故障,导致用户「数据完全丢失」》
https://mp.weixin.qq.com/s/wcjvYpmg45RzlCdV47Cifw
看完标题我以为是标题党,因为我一直以为云服务商只要做了 raid 不太可能出现数据完全丢失的情况,恢复起来并不麻烦。
看完整个事件的经过之后,我才意识,果然是可以完全丢失数据啊。。。
沿数控数提出了一千多万的赔偿方案,而腾讯云只能赔付 13 万。
相关文章里还有一篇 《谷歌数据中心遭雷劈 0.000001%数据被永久删除》,这是2015年的新闻,再次说明云存储数据丢失虽然是小概率事件,但是并不是不可能的事情。连 Google 都会丢失数据,还有啥数据存储是万无一失的?
如何规避云存储的数据丢失
一定要做备份。再知名的云服务商也不能保证运维人员、开发人员是靠谱的。只要需要人工干预,这事就一定有出问题的几率。
备份一定是异地多份。我目前使用的是阿里云的存储,以及七牛云的存储,我平时会定期从服务器同步备份文件到本地电脑。
但是,总感觉不够自动化,下一步我想尝试,自动同步 dropbox 或者 S3。
云服务商的损失赔偿
腾讯云前沿数控这起事故,感觉腾讯云还是比较厚道的,给予了 13 万的赔偿,相当于前沿数控消费金额的37倍。
但是,从前沿数控的数据价值看,这点钱微不足道。毕竟这导致公司的历史积累和之前的所有引流活动前功尽弃。不过,前沿数控提出的一千多万的赔偿费用有点不要脸了,自己的运维不专业,把责任完全推给云服务商这个有点说不过去了。
所以,千万不要指望云服务商会赔付你的数据损失,自己做好数据备份才是正道。
腾讯云数据丢失事故的官方技术复盘
https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ
当天上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。
证明了我的猜测,有人工干预的事情就一定会出问题。估计是运维小哥为了提取下班,关闭了耗时的数据校验过程。但是,两处操作违规,处处透露出不职业的作风,客观的讲,运维人员以及直接领导都应该立即开除。直接领导对于团队成员的责任心都没数的话,根本没有资格任职。
如果整个过程有强制性的校验过程,就不会出现这个问题了。
微信关注我哦 👍
我是来自山东烟台的一名开发者,有感兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊, 查看更多联系方式
谈笑风生
CSS 工程师 (来自: 中国 山东 烟台 联通) 6年前
大象 (来自: 中国 山东 烟台 联通) 6年前