l**********r 发帖数: 4612 | 1 【 以下文字转载自 CS 讨论区 】
发信人: goodbug (好虫), 信区: CS
标 题: Re: 各位de过的人生中最可怕的bug是什么?
发信站: BBS 未名空间站 (Tue Jan 10 03:07:19 2012, 美东)
我碰到最可怕的,是在产品环境上出了递归死循环,是因为不知名第三方的邮件
服务器有问题引起的,所以测试的时候没有发现。结果就是那个用户登录
的节点栈溢出,5分钟就JVM重启,重启就导致那个用户自动登录其他节点,
其他节点就重启,幸好节点多,但还是很惨烈。这种错在log里没有痕迹,幸好
有半个小时一次的thread dump里能看到异常。
Operation team把我老拉近conf room边debug边开会,
客户每3分钟问一次状态,压力可想而知。幸好30分钟的时候找到了毛病,
封住了那个用户,再花了一个下午修改代码。合同是99.9%的availability,
如果超过8个小时解决不了那个大单可能就要丢,搞不好要裁员也有可能。
最难的,碰到一个大集群里,有节点不定期变慢堵塞,周期一到两周不等,知道
是多线程问题,但无法重现。产品环境,log level太高,无充足信息。只好在
核心代码里反复阅读猜测,写测试验证。日夜干了2周没能解决,有天做梦突然
想到某行代码可能有并发问题,侥幸解决。 | E**********7 发帖数: 495 | | G****s 发帖数: 3523 | 3 thread is evil, especially implemented by idiots.
【在 l**********r 的大作中提到】 : 【 以下文字转载自 CS 讨论区 】 : 发信人: goodbug (好虫), 信区: CS : 标 题: Re: 各位de过的人生中最可怕的bug是什么? : 发信站: BBS 未名空间站 (Tue Jan 10 03:07:19 2012, 美东) : 我碰到最可怕的,是在产品环境上出了递归死循环,是因为不知名第三方的邮件 : 服务器有问题引起的,所以测试的时候没有发现。结果就是那个用户登录 : 的节点栈溢出,5分钟就JVM重启,重启就导致那个用户自动登录其他节点, : 其他节点就重启,幸好节点多,但还是很惨烈。这种错在log里没有痕迹,幸好 : 有半个小时一次的thread dump里能看到异常。 : Operation team把我老拉近conf room边debug边开会,
|
|