netflix今天down了 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - netflix今天down了

相关主题
● 美西时间下午5点之后电话被打爆的进来	● Openfeint 筹建中国研发中心
● Visual Studo调试中关不掉command window	● 看到这个，觉得挺有意思的
● 现在Google,Facebook等如何manage software release的？	● Visual Studio C++ Debugger能记住程序状态吗？
● github is down2016-01-27	● MPI合并数据的两种算法性能比较？
● [合集] matlab 函数求救	● 为什么本版不少人赞同编程就是copy & paster，让外行的觉得很容易
● 问一个比较	● 全球最受欢迎的网站使用的哪些编程语言？
● 那个语言最适合做科学计算软件	● recursion实际工作中用得多吗？ (转载)
● 问个有关C++ map的问题	● 其他不说，老魏你自己写的那套系统开源了还是卖钱了？

相关话题的讨论汇总
话题: down话题: service话题: netflix话题: global话题: 服务

进入Programming版参与讨论

(共1页)

N*****m
发帖数: 42603

all region
HA不行啊

f*******t
发帖数: 7549

是不是aws的问题？

g*****g
发帖数: 34805

We have 99.95 availability for last few years, that's about 4 hours down
time every year. It's not perfect but better than most companies.
Some service update caused one hour outage today.

【在 N*****m 的大作中提到】

: all region
: HA不行啊

w**z
发帖数: 8232

software bug?

【在 g*****g 的大作中提到】

: We have 99.95 availability for last few years, that's about 4 hours down
: time every year. It's not perfect but better than most companies.
: Some service update caused one hour outage today.

s***o
发帖数: 77

是啊本来还剩下一个小时下班说看片儿吧结果还不给力

【在 N*****m 的大作中提到】

: all region
: HA不行啊

g*****g
发帖数: 34805

Every time, I don't think we have any single point of failure. But a global
service update can cause global outage.

【在 w**z 的大作中提到】

: software bug?

w**z
发帖数: 8232

那怎么会down 一个小时？稍微长了点。

global

【在 g*****g 的大作中提到】

: Every time, I don't think we have any single point of failure. But a global
: service update can cause global outage.

g*****g
发帖数: 34805

几百个服务，trigger alert 5分钟，确认是哪个服务引发的大约半小时，Roll back启
动千把instance本身要10分钟，让用户量慢慢恢复也得半小时，一下子全上来撑不住。

【在 w**z 的大作中提到】

: 那怎么会down 一个小时？稍微长了点。
:
: global

w**z
发帖数: 8232

那个service, 不就是single point of failure?

【在 g*****g 的大作中提到】

: 几百个服务，trigger alert 5分钟，确认是哪个服务引发的大约半小时，Roll back启
: 动千把instance本身要10分钟，让用户量慢慢恢复也得半小时，一下子全上来撑不住。

g*****g
发帖数: 34805

single point of failure是说逻辑正确，一个节点当了还有Availability。如果每个
节点都有同样的逻辑错误导致queue无限拉长，整个service当是没办法的事情，测试不
能保证绝对不出错。这就是
红黑push和alert的必要性。如果改动大没有把握，可以做Canary, 拿一小部分用户来
实测一阵子再把feature放出去。

【在 w**z 的大作中提到】

: 那个service, 不就是single point of failure?

相关主题
● 问一个比较	● Openfeint 筹建中国研发中心
● 那个语言最适合做科学计算软件	● 看到这个，觉得挺有意思的
● 问个有关C++ map的问题	● Visual Studio C++ Debugger能记住程序状态吗？
进入Programming版参与讨论

w**z
发帖数: 8232

你们那个啥hystrix不是为了防止这种情况的吗？你们那个down 的service 是个核心的
吧。没那个就啥也干不了。

【在 g*****g 的大作中提到】

: single point of failure是说逻辑正确，一个节点当了还有Availability。如果每个
: 节点都有同样的逻辑错误导致queue无限拉长，整个service当是没办法的事情，测试不
: 能保证绝对不出错。这就是
: 红黑push和alert的必要性。如果改动大没有把握，可以做Canary, 拿一小部分用户来
: 实测一阵子再把feature放出去。

g*****g
发帖数: 34805

对，一个管playback的服务当了。

【在 w**z 的大作中提到】

: 你们那个啥hystrix不是为了防止这种情况的吗？你们那个down 的service 是个核心的
: 吧。没那个就啥也干不了。

N*****m
发帖数: 42603

你们居然没有AB testing？

【在 g*****g 的大作中提到】

g*****g
发帖数: 34805

这跟AB test没有关系。

【在 N*****m 的大作中提到】

: 你们居然没有AB testing？

N*****m
发帖数: 42603

为啥不能一部分nodes用新服务，一部分还用旧服务？

【在 g*****g 的大作中提到】

: 这跟AB test没有关系。

g*****g
发帖数: 34805

Canary test是会延缓周期的，任何改动都那么做太慢。show stopper一般是靠自动化
测试来保证没有，而不是Canary。

【在 N*****m 的大作中提到】

: 为啥不能一部分nodes用新服务，一部分还用旧服务？

N*****m
发帖数: 42603

问题是你昨天说这个是核心服务，这个难道不应该做？

【在 g*****g 的大作中提到】

: Canary test是会延缓周期的，任何改动都那么做太慢。show stopper一般是靠自动化
: 测试来保证没有，而不是Canary。

g*****g
发帖数: 34805

核心服务至少有10几个，一般大feature release才会那么做，否则平均两周一个
release，中间还有hotfix，哪能忙得过来。

【在 N*****m 的大作中提到】

: 问题是你昨天说这个是核心服务，这个难道不应该做？

N*****m
发帖数: 42603

still not buy it
这些release都可以自动和各种测试一起做，不存在忙不忙得过来的问题

【在 g*****g 的大作中提到】

: 核心服务至少有10几个，一般大feature release才会那么做，否则平均两周一个
: release，中间还有hotfix，哪能忙得过来。

g*****g
发帖数: 34805

有的问题要上量才能显示，有的问题跟每天更新的数据有关。没有测试能绝对保证不出
问题的，就是个概率问题。快速迭代很难达到4个9。

【在 N*****m 的大作中提到】

: still not buy it
: 这些release都可以自动和各种测试一起做，不存在忙不忙得过来的问题

相关主题
● MPI合并数据的两种算法性能比较？	● recursion实际工作中用得多吗？ (转载)
● 为什么本版不少人赞同编程就是copy & paster，让外行的觉得很容易	● 其他不说，老魏你自己写的那套系统开源了还是卖钱了？
● 全球最受欢迎的网站使用的哪些编程语言？	● $19 billion! 我笑了
进入Programming版参与讨论

N*****m
发帖数: 42603

那你们昨天这事的结论是啥？下次还会出现？

【在 g*****g 的大作中提到】

: 有的问题要上量才能显示，有的问题跟每天更新的数据有关。没有测试能绝对保证不出
: 问题的，就是个概率问题。快速迭代很难达到4个9。

g*****g
发帖数: 34805

还没结论，只知道可能跟数据相关。99.95是现状，99.99是目标。再出现很正常。

【在 N*****m 的大作中提到】

: 那你们昨天这事的结论是啥？下次还会出现？

N*****m
发帖数: 42603

管理层不高兴吧

【在 g*****g 的大作中提到】

: 还没结论，只知道可能跟数据相关。99.95是现状，99.99是目标。再出现很正常。

f*******t
发帖数: 7549

不高兴有啥用，大不了把出事的组砍了，但该挂的系统照样挂

【在 N*****m 的大作中提到】

: 管理层不高兴吧

g*****g
发帖数: 34805

这有啥的，一年平均当4个小时这不才1个小时吗。我们每年到Xmas就code freeze就这
原因。

【在 N*****m 的大作中提到】

: 管理层不高兴吧

ET
发帖数: 10701

netflix CEO 老早就说了：we are streaming video. Nobody gonna die because of
a service outrage.

【在 N*****m 的大作中提到】

: 管理层不高兴吧

(共1页)

进入Programming版参与讨论

相关主题
● 其他不说，老魏你自己写的那套系统开源了还是卖钱了？	● [合集] matlab 函数求救
● $19 billion! 我笑了	● 问一个比较
● 小白弱问一个AWS EC2 outage的问题	● 那个语言最适合做科学计算软件
● fragmentation对developer是好事	● 问个有关C++ map的问题
● 美西时间下午5点之后电话被打爆的进来	● Openfeint 筹建中国研发中心
● Visual Studo调试中关不掉command window	● 看到这个，觉得挺有意思的
● 现在Google,Facebook等如何manage software release的？	● Visual Studio C++ Debugger能记住程序状态吗？
● github is down2016-01-27	● MPI合并数据的两种算法性能比较？

相关话题的讨论汇总
话题: down话题: service话题: netflix话题: global话题: 服务

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天