b********1 发帖数: 291 | 1 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift
curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed
value/predicted value. 于是我又在output 里面用个 p= option
proc freq ;
f_dv *i_dv /list missing;
title compare predicted value vs observed value;
run;
结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成
classification table, 才发现我的这个table确实不太对劲。 我以往做的
classification table,sensitivity vs specificity 都能在classification 里面 [
.4 ~.6] 同时达到最高,大概70% ~80%. 可今天的table, sensitivity从100%立刻降
到40%以下,specificity 直接从0飙升到94%.
奇怪的是我的ROC,lift看起来并不差。 有谁懂的过来讨论下 ? | y**3 发帖数: 267 | 2 Your dependent variable is Binary(yes or no)?! What is the percentage for
Yes?
May be it is too rare | g******2 发帖数: 234 | 3 I think your model is highly dependent on probably 1 binary (or categorical)
variable. | t*****a 发帖数: 459 | 4 你的sample size是多少?多少个independent variable?模型的目的是hypothesis
testing还是predict future?
评价model看AUC和calibration, 这两个方面都重要。你的模型如果predict出的越高风
险组越over-estimate (或者统一往一个方向under-estimate),那最后AUC还是很好,
calibration就不行。 | b********1 发帖数: 291 | 5 嗯。 我回去再看看。 你们做模型, auc一般得多少才算通过 ?
【在 y**3 的大作中提到】 : Your dependent variable is Binary(yes or no)?! What is the percentage for : Yes? : May be it is too rare
| w*******9 发帖数: 1433 | 6 贴个roc 看看
lift
[
【在 b********1 的大作中提到】 : 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift : curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed : value/predicted value. 于是我又在output 里面用个 p= option : proc freq ; : f_dv *i_dv /list missing; : title compare predicted value vs observed value; : run; : 结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成 : classification table, 才发现我的这个table确实不太对劲。 我以往做的 : classification table,sensitivity vs specificity 都能在classification 里面 [
| b********1 发帖数: 291 | 7 嗯。 谢谢。 虽然看不太懂。
【在 t*****a 的大作中提到】 : 你的sample size是多少?多少个independent variable?模型的目的是hypothesis : testing还是predict future? : 评价model看AUC和calibration, 这两个方面都重要。你的模型如果predict出的越高风 : 险组越over-estimate (或者统一往一个方向under-estimate),那最后AUC还是很好, : calibration就不行。
| A****1 发帖数: 33 | 8 i think your data might have rare positive event.
if it is binary, one response value ~negative is dominant, the model can
only predict the dominant one. so sensitivity =true positive/actual positive
is low.
lift
[
【在 b********1 的大作中提到】 : 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift : curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed : value/predicted value. 于是我又在output 里面用个 p= option : proc freq ; : f_dv *i_dv /list missing; : title compare predicted value vs observed value; : run; : 结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成 : classification table, 才发现我的这个table确实不太对劲。 我以往做的 : classification table,sensitivity vs specificity 都能在classification 里面 [
| A****1 发帖数: 33 | 9 i think your data might have rare positive event.
if it is binary, one response value ~negative is dominant, the model can
only predict the dominant one. so sensitivity =true positive/actual positive
is low.
lift
[
【在 b********1 的大作中提到】 : 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift : curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed : value/predicted value. 于是我又在output 里面用个 p= option : proc freq ; : f_dv *i_dv /list missing; : title compare predicted value vs observed value; : run; : 结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成 : classification table, 才发现我的这个table确实不太对劲。 我以往做的 : classification table,sensitivity vs specificity 都能在classification 里面 [
| A****1 发帖数: 33 | 10 i think your data might have rare positive event.
if it is binary, one response value ~negative is dominant, the model can
only predict the dominant one. so sensitivity =true positive/actual positive
is low.
lift
[
【在 b********1 的大作中提到】 : 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift : curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed : value/predicted value. 于是我又在output 里面用个 p= option : proc freq ; : f_dv *i_dv /list missing; : title compare predicted value vs observed value; : run; : 结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成 : classification table, 才发现我的这个table确实不太对劲。 我以往做的 : classification table,sensitivity vs specificity 都能在classification 里面 [
| A****1 发帖数: 33 | 11 i think your data might have rare positive event.
if it is binary, one response value ~negative is dominant, the model can
only predict the dominant one. so sensitivity =true positive/actual positive
is low.
lift
[
【在 b********1 的大作中提到】 : 好不容易造个回归模型,各项指标看起来很美,f, g, p, a, o 各项指标都通过, lift : curve, gains chart看着也不赖,以为没事儿了。 忽然老板说还要比较observed : value/predicted value. 于是我又在output 里面用个 p= option : proc freq ; : f_dv *i_dv /list missing; : title compare predicted value vs observed value; : run; : 结果实际值与预测值完全对不上,差的十万八千里。 于是有用了ctable, 生成 : classification table, 才发现我的这个table确实不太对劲。 我以往做的 : classification table,sensitivity vs specificity 都能在classification 里面 [
|
|