软件已经改变了世界。软件和工程师的失误也会影响世界。

很多技术事故是可以避免的。撰写事故纪实的最终目的是为了提醒工程师避免事故。

事故可能是:

  • 服务宕机
  • 服务非正常运转
  • 数据泄露

事故纪实新闻的撰写可参考企业内部事故报告的写法,只是更加简练。这里参考了Facebook的Post-Mortem规范。

范文:从光大证券交易系统8.16事件说起

标题:对事故的一句话简介

第一部分:发生了什么?一句话总结发生的事件。

8月18日,中国证监会新闻发言人通报了8月16日上午的“光大证券交易异常”事件的初步核查情况,认为问题源于光大证券自营策略交易系统存在缺陷。

第二部分:影响多大?总结这个事件造成的影响。

8月16日11时5分左右,上证综指突然上涨5.96%,中石油、中石化、工商银行和中国银行等权重股均触及涨停。证监会核查发现:主要买入方为光大证券自营账户。后光大证券申请:午后暂停其股票的交易。

第三部分:问题的原因是什么?解释问题发生的根源。

事件发生后,多方认为此次事件是一次“乌龙指”事件,也就是说可能是股票交易员、操盘手、股民等在交易的时候,不小心敲错了价格、数量、买卖方向等。8月18日,证监会初步核查的结果显示:光大证券自营的策略交易系统包含订单生成系统和订单执行系统两个部分,存在程序调用错误、额度控制失效等设计缺陷,并被连锁触发,导致生成巨量市价委托订单,直接发送至上交所,累计申报买入234亿元,实际成交72.7亿元。此外,在核查中尚未发现人为操作差错,但光大证券该项业务内部控制存在明显缺陷,信息系统管理问题较多。

第四部分:如果本次问题已经修复,介绍本次问题是如何修复的。

第五部分(可选):事件发生的具体时间表。

第六部分:一些相关事件的回顾。

  • 2008年9月8日,伦敦证券交易所当天却因为网络连接技术故障停盘近7个小时,令不少投资者痛失大好时机。有人推测是因为微软平台的缘故。一年半之后,伦敦证交所将系统切换到Linux平台之上。在2011年2月25日上午,伦敦证交所在当天早晨开盘竞价时发现“市场数据”部分出现故障,因此又停盘处理这一问题。他们使用的“千年信息技术”交易系统于2月14号刚刚启用。
  • 2012年2月2日,东京证券交易所系统开盘前出现故障,导致241只股票停止交易。东京证交所表示,这次出现故障的是传递交易信息的系统。投资者在发出交易请求后,即使交易成功,股价也无法传递到投资者那里。进入午盘,东京证交所的系统得到恢复。
  • 2012年3月,美国第三大证券交易所运营商BATS在上市当日经历一次严重技术故障后宣布取消上市。随后,由于纳斯达克的系统瘫痪,社交网络巨头Facebook股票上市当天开盘时间被推迟了30分钟,交易故障给投资者造成了前所未有的困惑和混乱。
  • 2012年8月,骑士资本由于技术故障在45分钟内损失4.4亿美元。
  • 2012年8月6日,由于技术故障,西班牙股票交易所被迫暂停交易近5个小时。
  • 2012年11月28日,瑞典斯德哥尔摩证券交易所因为程序bug,导致交易系统中断了数小时。自动交易系统发出了4,294,967,290指数期货购买指令,每份价值约等于16,000美元,总价值69万亿美元,是瑞典GDP的131倍。这项交易后被废止,但它的后遗症导致交易系统中止了数小时。

第七部分:对于以后如何避免此类事故的建议资料。

优秀的金融系统,需要设计、开发、测试、运维等多个环节的配合与反馈。不妨回顾一下这些环节的优秀内容,希望其中的观点和实践能为广大读者提供有价值的参考。……