由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 发个高难度的面试题
相关主题
求教:Cox PH 模型的cluster data处理帮忙看下这个是什么分布
问一些关于mixed model的问题,包子悬赏,不胜感激。求助:Power analysis for poisson regression?
Repeated events survival model prediction extrapolation to furture请问poisson regression和 Log-linear model之间的联系?
请教高人一个project,实在想不出了
怎么求 泊松分布的自然对数 的均值跟方差 假设 k!=0想要描述不同种类的random variables之间的correlation有可能吗?
怎么用sas作time series cross section Poisson regression?强烈呼唤牛人-question on analysis
怎样客观比较中美文化的优越性? (转载)请教两个序列的比较问题
请教一个统计问题,泊松分布请教用如何R进行多元longitudinal分析
相关话题的讨论汇总
话题: time话题: sensor话题: frailty话题: pump
进入Statistics版参与讨论
1 (共1页)
l******n
发帖数: 9344
1
一个油田,需要预测使用pump在未来48小时内出现故障的可能性
2个log file,一个是维修log,记录了pump的维修情况,一个是real-time的pump sensor
log file,记录了每隔1分钟每个pump的sensor status,可以假设都是连续数值。
L*******i
发帖数: 1126
2
That's all? a little confusing to me...
l******n
发帖数: 9344
3
what confuses you?
这是个实际问题,现在油田就是这样的

【在 L*******i 的大作中提到】
: That's all? a little confusing to me...
a***g
发帖数: 2761
4
原来随机过程里有类似这种Poisson process 或者renewal process的题目,不过怎么
估计这个过程的参数没有怎么涉及过,得从时间序列里看看吧
g****l
发帖数: 213
5
很有意思,marketing 里预测attrition 也是基本相同的思路吗吧。俺还没学完,先
mark下,回头来答 :)
k*******a
发帖数: 772
6
one thought is to use survival analysis
K*****2
发帖数: 9308
7
“维修情况”是什么意思,是连续数值?
g******i
发帖数: 118
8
对哦,维修情况是啥子?有具体数据的例子么,比如给出前5行?
l******n
发帖数: 9344
9
就是什么时候去修理了哪个pump

【在 g******i 的大作中提到】
: 对哦,维修情况是啥子?有具体数据的例子么,比如给出前5行?
r****t
发帖数: 10904
10
就是故障时间记录,这不是直接估计泊松过程么

【在 l******n 的大作中提到】
: 就是什么时候去修理了哪个pump
相关主题
怎么用sas作time series cross section Poisson regression?帮忙看下这个是什么分布
怎样客观比较中美文化的优越性? (转载)求助:Power analysis for poisson regression?
请教一个统计问题,泊松分布请问poisson regression和 Log-linear model之间的联系?
进入Statistics版参与讨论
l******n
发帖数: 9344
11
和泊松没有任何关系,这是一个machine learning的问题
几个难点:
1.维修记录记录的事维修的时间,并不是pump fail的时间,pump fail的时间不知道2.
因为pump fail的时间不知道,对应的sensor status你也不知道,所以你不知道pump
fail的sensor的特征
3.因为要预测未来的状态,你不知道未来的sensor的status

【在 r****t 的大作中提到】
: 就是故障时间记录,这不是直接估计泊松过程么
w*******9
发帖数: 1433
12
看来没有domain expert的支持,大家也就在这里纸上谈兵。连fail的时间都不知道,
怎么预测48小时fail的概率?如果数据足够大,failure events 足够多(所以interval
足够细),还能考虑考虑interval censored survival analysis。

2.

【在 l******n 的大作中提到】
: 和泊松没有任何关系,这是一个machine learning的问题
: 几个难点:
: 1.维修记录记录的事维修的时间,并不是pump fail的时间,pump fail的时间不知道2.
: 因为pump fail的时间不知道,对应的sensor status你也不知道,所以你不知道pump
: fail的sensor的特征
: 3.因为要预测未来的状态,你不知道未来的sensor的status

l*********s
发帖数: 5409
13
hidden markov for time/spatial modeling
l*********s
发帖数: 5409
14
这题其实还好吧,修过时间序列的同学就算没实际经验过至少应该可以吹一吹基本理论。
l******n
发帖数: 9344
15
说细节不容易呀,而且还是个real-time system

论。

【在 l*********s 的大作中提到】
: 这题其实还好吧,修过时间序列的同学就算没实际经验过至少应该可以吹一吹基本理论。
P****D
发帖数: 11146
16
我糊涂了。这个sensor到底是干什么的?不是用来检测机器是否坏了?坏了之后,它能
不能自动通知人来修?
看你的1,我现在彻底不知道维修人员是怎么知道机器坏了的。

2.

【在 l******n 的大作中提到】
: 和泊松没有任何关系,这是一个machine learning的问题
: 几个难点:
: 1.维修记录记录的事维修的时间,并不是pump fail的时间,pump fail的时间不知道2.
: 因为pump fail的时间不知道,对应的sensor status你也不知道,所以你不知道pump
: fail的sensor的特征
: 3.因为要预测未来的状态,你不知道未来的sensor的status

T*****u
发帖数: 7103
17
根据这个sensor来预测吧。现在警局都有软件预测未来24小时哪里可能出现crime,提
前派驻警察预防了。NN应该可以,贝叶斯也可以吧。

【在 P****D 的大作中提到】
: 我糊涂了。这个sensor到底是干什么的?不是用来检测机器是否坏了?坏了之后,它能
: 不能自动通知人来修?
: 看你的1,我现在彻底不知道维修人员是怎么知道机器坏了的。
:
: 2.

k*z
发帖数: 4704
18
没看懂问题,确实有难度。
l*********s
发帖数: 5409
19
Yes.. but: for phd, this question is a no-brainer; for masters, I think
knowing the principle is good enough. Stat is
not cs, you know.

【在 l******n 的大作中提到】
: 说细节不容易呀,而且还是个real-time system
:
: 论。

l******n
发帖数: 9344
20
but this is a real application in field, i was scrutinized by the interview
...
sigh ...

【在 l*********s 的大作中提到】
: Yes.. but: for phd, this question is a no-brainer; for masters, I think
: knowing the principle is good enough. Stat is
: not cs, you know.

相关主题
一个project,实在想不出了请教两个序列的比较问题
想要描述不同种类的random variables之间的correlation有可能吗?请教用如何R进行多元longitudinal分析
强烈呼唤牛人-question on analysis两组数据,2个variable 的correlation不一样,如果合并起来,他们的correlaton怎么变化
进入Statistics版参与讨论
l*********s
发帖数: 5409
21
pat pat. It is not bad thing, really. Technical questions are Chinese
students' forte and allow you stand out against other job seekers.

interview

【在 l******n 的大作中提到】
: but this is a real application in field, i was scrutinized by the interview
: ...
: sigh ...

s********a
发帖数: 328
22
to me it seems to be a failure time / survival analysis problem. Isn't this
how failure time theory first came about (testing light bulb's life span)?
The model can be either semiparametric addictive hazard (Cox/proportional
hazard) or multiplicative hazard or fully parametric with exponential/gamma
assumption. Once you have the hazard function corresponding current state of
real-time sensors, you can calculate the survival function S(t)=exp(-
cumulative hazard) and find out the probability of failing in the next 48
hours S(NOW)-S(NOW+48)
One caveat is the real-time sensors which require modeling of time-dependent
covariates.

sensor

【在 l******n 的大作中提到】
: 一个油田,需要预测使用pump在未来48小时内出现故障的可能性
: 2个log file,一个是维修log,记录了pump的维修情况,一个是real-time的pump sensor
: log file,记录了每隔1分钟每个pump的sensor status,可以假设都是连续数值。

l*********s
发帖数: 5409
23
Death is an event of no-turning-back, while a pump could be fixed again and
again.

this
gamma
of
dependent

【在 s********a 的大作中提到】
: to me it seems to be a failure time / survival analysis problem. Isn't this
: how failure time theory first came about (testing light bulb's life span)?
: The model can be either semiparametric addictive hazard (Cox/proportional
: hazard) or multiplicative hazard or fully parametric with exponential/gamma
: assumption. Once you have the hazard function corresponding current state of
: real-time sensors, you can calculate the survival function S(t)=exp(-
: cumulative hazard) and find out the probability of failing in the next 48
: hours S(NOW)-S(NOW+48)
: One caveat is the real-time sensors which require modeling of time-dependent
: covariates.

A*******s
发帖数: 3942
24
recurrent event can also be handled well in survival analysis by modeling
Poisson process, but the major focus in traditional statistics research is
how to make a more valid statistical inference rather than pure prediction/
forecasting. For example, accommodate the correlation by using time
dependent covariates, reduce the bias by introducing frailty terms, or
correct the standard error estimates by using robust sandwich...
For the sake of prediction performance, i would say machine learning
algorithm is more effective.

and

【在 l*********s 的大作中提到】
: Death is an event of no-turning-back, while a pump could be fixed again and
: again.
:
: this
: gamma
: of
: dependent

l*********s
发帖数: 5409
25
学习!

【在 A*******s 的大作中提到】
: recurrent event can also be handled well in survival analysis by modeling
: Poisson process, but the major focus in traditional statistics research is
: how to make a more valid statistical inference rather than pure prediction/
: forecasting. For example, accommodate the correlation by using time
: dependent covariates, reduce the bias by introducing frailty terms, or
: correct the standard error estimates by using robust sandwich...
: For the sake of prediction performance, i would say machine learning
: algorithm is more effective.
:
: and

w*******9
发帖数: 1433
26
“accommodate the correlation by using time dependent covariates, reduce the
bias by introducing frailty terms.” 怎么与我的理解刚好相反?顺便问一句,大
牛工作中有没有遇到过logistic regression需要解决time dependent covariates 的
情况,你是如何解决的?比如预测PD,假设结婚不结婚买房不买房有影响,某人中途结
了婚买了房,你们是怎么处理这种情况的?

【在 A*******s 的大作中提到】
: recurrent event can also be handled well in survival analysis by modeling
: Poisson process, but the major focus in traditional statistics research is
: how to make a more valid statistical inference rather than pure prediction/
: forecasting. For example, accommodate the correlation by using time
: dependent covariates, reduce the bias by introducing frailty terms, or
: correct the standard error estimates by using robust sandwich...
: For the sake of prediction performance, i would say machine learning
: algorithm is more effective.
:
: and

A*******s
发帖数: 3942
27

the
我说的可能不够详细。
最简单的处理recurrent event的AG model就认为correlation完全被time dependent
covariates解释了(如果搞不定的,再上其他的frailty/stratified...)。
frailty/random effect可以用来model subject-specific effect, 相对于model没有
frailty/random effect而言,bias是减少的。但相对于fixed effect 而言,bias增加
了,variance减少了。
你的理解是怎么样的?
顺便问一句,大
对于internal predictor来说,实际上还是把它当成time independent的。先不说fair
lending的要求,我们一般要预测的是“如果我看到一个人今天没结婚,那么一年内他
破产的概率是多少”。我们用的其实是observed value at timespot,完全time
independent...
external的好办,最简单的就是单独搞个time series的来预测它然后plug in就好。

【在 w*******9 的大作中提到】
: “accommodate the correlation by using time dependent covariates, reduce the
: bias by introducing frailty terms.” 怎么与我的理解刚好相反?顺便问一句,大
: 牛工作中有没有遇到过logistic regression需要解决time dependent covariates 的
: 情况,你是如何解决的?比如预测PD,假设结婚不结婚买房不买房有影响,某人中途结
: 了婚买了房,你们是怎么处理这种情况的?

w*******9
发帖数: 1433
28
多谢解释。1) 你说的correlation不是subject within clusters的correlation吗?
2) 看来external predictor 也是被当成time independent 的了,只是用来预测未来
的时候需要plug in an estimate.

fair

【在 A*******s 的大作中提到】
:
: the
: 我说的可能不够详细。
: 最简单的处理recurrent event的AG model就认为correlation完全被time dependent
: covariates解释了(如果搞不定的,再上其他的frailty/stratified...)。
: frailty/random effect可以用来model subject-specific effect, 相对于model没有
: frailty/random effect而言,bias是减少的。但相对于fixed effect 而言,bias增加
: 了,variance减少了。
: 你的理解是怎么样的?
: 顺便问一句,大

l*******s
发帖数: 1258
29
几点思考:
1.总体上是个sequene labeling问题,可以考虑HMM、MEMM、ME+Beam Search、CRF等模
型。个人推荐:CRF,精度最高,但是速度慢点。基本上就是维修log作为observation
,机器状态log作为target,训练一个模型出来就ok。
2.维修log里面的数据是啥样子的?不清楚。是数字还是文字?有几个feature type?
没有这些信息,没法建立模型。
3.对于系统的实时性要求如何?要求高的话,模型上要考虑跑得快的模型,比如如果知
道前后时间dependency不太严重的话,用HMM代替CRF能快很多;实现上,引入多线程等
;要是log太大,还得用hadoop啊mahout等分布式machine learning框架。
just my 2 cents.
A*******s
发帖数: 3942
30
within clusters correlation可以用frailty来model,不过还有temporal
correlation



【在 w*******9 的大作中提到】
: 多谢解释。1) 你说的correlation不是subject within clusters的correlation吗?
: 2) 看来external predictor 也是被当成time independent 的了,只是用来预测未来
: 的时候需要plug in an estimate.
:
: fair

相关主题
希望以后没有人再问时间序列的correlation问题问一些关于mixed model的问题,包子悬赏,不胜感激。
工作中的一个correlation analysis的问题。Repeated events survival model prediction extrapolation to furture
求教:Cox PH 模型的cluster data处理请教高人
进入Statistics版参与讨论
A****1
发帖数: 33
31
How about trying Bayesian logistic regression?
First, use logistic regression to build a model. 维修log is the result (0,1)
, sensor status are the IV. I guess there are multiple sensors. And then use
bayesian when every new time points come in.

sensor

【在 l******n 的大作中提到】
: 一个油田,需要预测使用pump在未来48小时内出现故障的可能性
: 2个log file,一个是维修log,记录了pump的维修情况,一个是real-time的pump sensor
: log file,记录了每隔1分钟每个pump的sensor status,可以假设都是连续数值。

1 (共1页)
进入Statistics版参与讨论
相关主题
请教用如何R进行多元longitudinal分析怎么求 泊松分布的自然对数 的均值跟方差 假设 k!=0
两组数据,2个variable 的correlation不一样,如果合并起来,他们的correlaton怎么变化怎么用sas作time series cross section Poisson regression?
希望以后没有人再问时间序列的correlation问题怎样客观比较中美文化的优越性? (转载)
工作中的一个correlation analysis的问题。请教一个统计问题,泊松分布
求教:Cox PH 模型的cluster data处理帮忙看下这个是什么分布
问一些关于mixed model的问题,包子悬赏,不胜感激。求助:Power analysis for poisson regression?
Repeated events survival model prediction extrapolation to furture请问poisson regression和 Log-linear model之间的联系?
请教高人一个project,实在想不出了
相关话题的讨论汇总
话题: time话题: sensor话题: frailty话题: pump