民生银行的系统事故
作者:Fenng 发布在 dbanotes.net. 
虽说年底是 IT 事故多发的期间,不过这次民生银行系统瘫痪事故还是让人觉得有点严重。事发 2 月 3 号,从上午11:00到下午15:30,故障持续四个多小时,全行系统瘫痪。对外称是”核心系统维护”。
个人之所以比较关注这个事故,是因为新闻标题中的”数据库维护失误”。据说是”由于数据系统进行维护时出现了失误,造成宕机”。开始的时候,大家把关注的焦点放到灾备切换与否的问题上,据说是”没敢切换”。初看上去倒是有点像 DBA 误操作。有人说是和时间服务器有关,我错过了讨论现场。
也有朋友在 Twitter 上说:民生银行上周的系统宕机事故,源于IT部门某应用系统数据库(应该是 DB2 Informix,数据库版本老旧,且无正常维护服务),一个应该在夜间处理的长任务,运行到银行开门也未结束,该系统正常时的CPU使用率就已经到达70-80%,长任务从夜里一直跑到上午无法停止,把本来就不堪重负的业务系统拖慢到不能忍受,由于数据库版本 EOS ,无厂商实验室的工具支持无奈之下,要求重启相关系统,结果造成业务停止。事件的(后续)处理还在进行中。(via)
上述说法看起来比较可信,也足以解释为什么不切换到灾备上。如果因为计算能力的不足 (或是系统性能问题) 的话即使是切换也无济于事的。民生的旧系统是 SAP 核心,实施方是埃森哲(refer)。不过,”民生银行打造的新核心系统已经开发完毕,目前处于内部运用的阶段,今年上半年将会在全公司上线”,估计到时候能稳定点?
另外看到有网友说,2008 年初,民生银行的的小额支付系统也出过严重问题,由于操作失误或是程序内部控制原因,造成了几百万的重帐。
涉及到钱的问题总是让人如履薄冰。根据我个人亲身经历过的一些事情来看,事故发生后,更多的时间都会花在决策上,而一旦选择错误或者不是做出最优的决定,灾难才刚刚开始。
–EOF–
最近文章|Recent Articles
本站赞助商:豆瓣网
评论数(6)|添加评论 | 最近作者还说了什么? Follow Fenng@Twitter
本文网址:http://www.dbanotes.net/review/cmbc_crash.html
DBA Notes 理念: 用简约的技术取得最大的收益…
- 民生银行的系统事故
作者:Fenng 发布在... - 编程语言的选择并非无关紧要
作者:Fenng 发布在... - 1e100.net,来自 Google
作者:Fenng 发布在... - Oracle 数据库版本调查与分析
作者:Fenng 发布在... - 《MySQL性能调优与架构设计》简朝阳签名本 [Flickr]
Fenng(dbanotes) posted...
随机推荐文章:
- Gmail用户数年底或超Hotmail(月光博客)
- Wine 1.1.29 及 Crossover Games 8.0发布(LinuxTOY)
- HelloFlash(WordPress幻灯片插件)的使用方法及注意事项(菠菜博)
- 配置WordPress回收站功能(Wopus中文平台)
- 嘀咕火兔:用拍照来记录你正在干嘛(我爱水煮鱼)
- 9个Web设计中常见的可用性错误(菠菜博)
- 新版豆瓣9点正式上线运营(分享网络2.0)
- bShare 分享推出了定制和统计功能(我爱水煮鱼)
- 诺基亚玩转视频网站 优酷和土豆谁更值钱?(无聊布棉的blog)
- Bing可能会取代Google成为iPhone默认搜索引擎(iFanr爱范儿)
