一、什么是重大事故?互联网运营多多少少都会遇到一些事故,事故有大有小,影响不一,有些微乎其微,但是有一些却举足轻重。系统发生重大灾难难道只能“删库跑路”?本文作者列举了互联网公司一些比较重大的事故,并总结了自己的几点建议,与大家分享。
删库跑路?还是系统奔溃?重大事故让人沮丧、肝儿颤、似乎又无可奈何?
近来所在的部门和产品发生几次大事故,用户大量涌入,在峰值时刻导致系统瘫痪,造成不可估量的经济损失:原有线上活动不能正常进行,除此之外,无论是对产品本身还是品牌形象的损害更是无法估量,所谓创业难、守业更难。
当然重大事故在任何产品和任何公司都有发生的可能,比如——
2019年1月20日凌晨,拼多多遭遇了成立以来的最大BUG事件:当日凌晨,有用户发现可以领取100元无门槛券,切换微信、QQ等账号可以多次领取,且兑换券可直接用于充值话费、Q币、购买商品时抵扣。
该BUG于凌晨被发现,随之被扩散开来,凌晨五点传遍全网,吸引了大批羊毛党进入,至早上九点拼多多才反应过来,下架了相关优惠券,10点左右BUG被修复。由于有羊毛党进入,众所周知其作战能力彪悍,开启了嘻唰唰模式。传言该BUG使拼多多一夜损失200亿。
2015年做互联网行业的人应该都耳闻过携程“瘫痪门”事件,那天是5月28日,突然之间携程官网和APP双双崩溃,访问不了。一时间谣言四起,两个小时后,携程发布声明说服务器受到不明攻击,正在努力恢复中。
但是据坊间流传,说携程的数据被怀恨在心的一个工程师物理删除,数据全部丢失。互联网公司最核心的就是数据了,若用户数据丢失,公司会成为一个空壳,变的一文不值。次日携程发布官方声明,说是由于员工操作失误,误删除了生产服务器上的代码所致,就此事件结束,受此事件影响,携程盘前股价*11.67%。
如果你不知道玩什么,就玩王者荣耀吧。如果你不知道朋友去哪了,就去王者荣耀找吧。
2018年12月3日王者荣耀不少安卓QQ区的用户收到了标题为“test”的邮件,打开后里面是英雄沈梦溪、棒球奇才、英雄李信和灼热之刃四个永久道具。价值有多大呢,这次邮件内容被用户戏称为“天美史上最强福利”。
邮件发出后,全网沸腾,微信群、QQ群关于邮件内容的截图满天飞,然而不到1小时,进入游戏提示:停服维护。官方动手了,对已经使用了道具的账号,强制进行了回收。未打开邮件的账号,邮件被删除。按照游戏出 BUG 必补偿的原则,事后官方对全服玩家发放了每人10个英雄碎片和2000个铭文碎片补偿。
二、一分为二看待“重大事故”这件事情通过上边的案例我们可以看到,重大事故的发生分为人为的、故意的,和非人力可以控制的、意外的,前者如程序员删库跑路,后者如活动大量流量访问时系统的暂时性奔溃(此处应该有一个泪奔的表情)。
首先我们应该庆幸,我们能够遇到和处理、解决这些“重大事故”,因为一定程度上说明了我们做的产品到了一个比较大的用户量阶段,对系统的高并发有了比较高的要求,这无论是对产品还是对技术来讲,都是一次在压力中成长的机会。
就像一个孩子的成长一样,一路上的跌跌撞撞、磕磕碰碰之后,才能成长为一个身体和心理都较为强壮的人,而系统也因此变得越来越健壮。
三、重大事故是事实和性质双重严重的问题,怎么办?这总归不算事一件特别好的事情,至少不值得炫耀。
这是项目或者产品冒着拼尽洪荒之力的重压给参与者的一次成长的机会,风险永远不可消除和避免,但是我们还是有章可循尽量能预防,从而降低风险和损失。
(1)对于人为原因的事故,我们只能从人的角度多关注,关注每一个参与者的幸苦付出,让大家感受到参与的热情和价值,做好团队的心理建设
(2)对于非人为的原因造成的事故,大概有以下一些处理方案,主要是一些在用的方案,坊间通用的以后用到再谈。
刚刚讲了很多实际处理重大事故的方案和预案,但是当我们透过现象看本质我们会发现,在基本的功能问题处理完毕后,后续我们将面临的是系统性能和用户体验的艰难博弈。
简单来讲:比如我们减少一个炫酷交互的操作,可以提高页面打开效率的1%;为了方便用户筛选,我们将筛选做的层级分明,极为细致,但是这样的设计系统接口间的询问次数就会变得多了起来。
在处理这部分问题和工作的时候,小胖发现一个很有意思的点:技术同学往往想让产品降低一些操作和搜索类逻辑的使用,从而可以提高一部分系统的性能,但是产品同学往往对用户体验细节要求极高,所以很多方案都是大家尽量沟通达到所谓的“中和”点,但是这样的中和是否就是完全对的呢?
五、怎么进行事故的解释和汇报许多人喜欢报喜不报忧,哪怕是出了很大的事故,这种做法其实是不太明智的,毕竟老板也不是傻子,可能开始的一两次忽悠还可以蒙混过关,但是路遥知马力日久见人心,诸君共勉。
有些人又比较怂,只是会承认错误,灾难都发生了,承认错误是应该的,但是光承认错误是没有用的。并且,如果只讲不好的部分,本来相关人员就不顺心,无疑是雪上加霜。
小胖比较人可以的方式是既要主动认识到问题的严重性和快速定位到为题,解决问题;也要找到问题的转折点,化悲痛为力量。比如可以抓住机会提出针对产品的优化资源需求,要钱要资源;当然更好的方式是,能否让一个灾难变成一次好的公关。
比如曾经某个汉堡品牌被爆出使用的肉有问题,媒体一时间得理不饶人,但是后来公司想了一个让社会继续帮这个品牌寻找用餐过程中的重大问题的活动,经过一段时间后,不但更多的人知道了这个品牌,更知道了这个品牌是一个敢于当担的品牌。人也一样,担当很重要。
以上,从事故中总结而来,也希望如果有一天你用的到,可以给你一些有用的思路和借鉴。
爱你们的小胖子。2020年夏。
http://www.woshipm.com/operate/2903465.html/comment-page-1
FatBoy,*夜来妖,人人都是产品经理专栏作家,做了几年产品。
本文原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved