4月27日服务异常说明

1、故障原因:机房机柜双路掉电,服务器宕机

2、故障描述:官网登陆失败,部分用户应用无法访问,服务不可用

3、故障级别:A级

4、故障时长:

故障开始时间:2021-04-27 15:57

故障发现时间:2021-04-27 15:58

主要服务恢复时间:2021-4-27 16:20

服务彻底恢复时间:2021-4-27 23:16

5、影响服务:部分用户RDS、SVN、ES、定时任务等服务不可用

6、故障处理:

监控发现服务器报警,公司网络组工程师紧急联系机房人员,在确认机房出现电力中断问题后,公司启动故障管理应急处理预案,联动机房尽快恢复供电。

受断电影响,部分网络设备逐步恢复中,且仍有部分设备不通。新浪云运维工程师紧急切走受影响的服务,其中排查到数据库从库异常,优先引导受影响的用户处理恢复。当天18:00,新浪云业务官网(域名解析抖动)、VPN、代码分发、定时任务、ES服务完全恢复;当天22:00,部分受影响的特殊配置用户,针对性支持和恢复服务。

7、故障改进措施:

针对4月27日机房故障,我们进行了缜密复盘。虽然不可抗力引起的服务异常不可控,但我们可以通过人为操作把故障给用户带来的影响降到最低。我们定将吸取教训,优化系统架构、调整更新IT资源、加强对平台运维工作的监督及执行,尽最大的努力避免故障的发生,缩短不可抗力类故障造成的影响,给您提供一个安全、稳定、高可用的平台环境。

针对此次故障,新浪云决定对部分受影响的用户进行补偿,以表达我们对大家深深的歉意。

具体补偿方式为:

补偿对象:故障发生时受影响的用户

补偿方式:赠送云豆

补偿额度:故障发生时间24小时前相同时间段,用户消费云豆总量的20倍

关于“故障发生时间24小时前相同时间段”,含义是指:如果当前时间段发生平台故障,将统计受影响账户24小时前相同时间段的云豆消耗量,并进行补偿。

我们会根据您账户在故障发生时间24小时前相同时间段云豆消耗值乘以20,作为此次故障的补偿。云豆将会在2个工作日内发放至您的账户,请及时登陆新浪云查看状态。

补偿云豆数量 = 受影响账户在故障发生时间24小时前相同时间段的云豆消耗总值 * 20。

如果还有其它的意见或疑问,您可以通过提交工单反馈给我们,我们将及时为您解答。

再次向受此次故障影响的用户致歉,再次感谢您的支持和理解。