12th 六月 2017

Ufile 上传文件失败导致构建无法上传镜像

事故描述:

可以正常拉取镜像,无法上传镜像。构建系统受到影响无法上传镜像。

备份存储因尚未完成基础数据同步无法切换。 目前正积极与 UCloud 解决问题

11 点左右 UFile 恢复工作,受影响功能完全恢复。

故事处理:

DaoCloud Services 团队在积极尝试镜像存储备份方案。预计 2 ~ 4 日后可以完成在 s3 的数据备份。 完成同步后我们会尝试在线切换存储,杜绝类似情况。

UFile 故障报告

2017年6月12日UFile故障报告 故障时间:2017年6月12日06:35-2017年6月12日10:56 影响范围:daocloud 2017年6月12日故障期间的1491个uploadhit文件访问

处理过程: 05:58 UCloud运维值班同事接收到UFile索引机器磁盘掉线告警,并电话通知到UFile同事 06:12 检查发现daocloud所在索引存储集群主机磁盘掉线,导致索引读写请求失败 06:15 切换索引备机提供服务 06:20 更新索引接入主备配置 06:35 检查监控,服务恢复 09:45 daocloud反馈ufile uploadhit上传提示无法找到文件(404错误) 09:45 排查发现uploadhit相关的索引接入机主备配置在主备切换后未更新 10:30 修改索引接入配置,修复完成

故障原因: ufile索引存储主机磁盘掉线导致索引访问失败,执行主备切换后遗漏调整uploadhit相关主备配置

改进措施: 1、针对daocloud的使用场景,对uploadhit进行专门的监控(包括正常错误码)(需更新版本,6月21日前完成) 2、优化索引存储方案,将单bucket索引分布在多个集群存储(预计8月份上线) 3、实现索引存储故障处理逻辑,及时消除单集群故障导致的影响(预计8月份上线) 4、实现专门的文件复制接口,取代使用uploadhit做文件复制的方式(Q3上线完成)