第3页 - 关于auc的讨论汇总 - 话题女王

全部话题 - 话题: auc

b****r
发帖数: 17995

来自主题: PhotoGear版 - 谁去把这个泥坑24-120mm VR Lens 收了，20刀

看左下图一
现在auction价20刀
http://www.publicsurplus.com/sms/auction/view?auc=642113

d****o
发帖数: 32610

来自主题: Joke版 - 围棋黑先让子数目需要修改了

可以
不对，没这个自由度
可以比全场局势AUC

G*******n
发帖数: 6889

来自主题: Apple版 - Re: Mac OS 9.2 有 telnet 吗？

http://www.apple.com.tw/AUC/AppleLink/comm1/internet.html

R******d
发帖数: 1436

来自主题: CS版 - 想问一个关于评价prediction performance的问题 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: Rainbird (落汤鸟), 信区: Statistics
标题: 想问一个关于评价prediction performance的问题
发信站: BBS 未名空间站 (Tue Oct 26 13:06:46 2010, 美东)
现在想做一个predictor，用来预测人群中的某种不常见的疾病，发病率不到1%。
training data是
非常imbalanced的，positive data points很少，绝大部分都是negative data points
。我
没有直接用这样的training data，而是人为地构建了balanced data。简单的说，就是
保持
positive data points不变，随机选同样sample size的negative data points。重复
训练
若干次，最后的训练结果是这么多次结果的汇总。
因为发病率确实很低，所以我取的specificity很高，比如99.9%。相应来说
sensitivity就很低
了，2%不到。换算成Positive Predic... 阅读全帖

m*p
发帖数: 1331

来自主题: CS版 - cross validation and best model question

如果用K fold CV 的话，会得到K个model，然后再实际应用中应该选哪个model呢？用
accuracy or AUC 最高的那个？

w***g
发帖数: 5958

来自主题: Programming版 - 有人搞P2P lending吗？

刚刚折腾了一下XGBoost。如果把20秒以内卖出的算作positive，
别的所有的算作negative，3-fold cross validation的ROC AUC能到0.99。
好到我都怀疑代码有错了。也有可能我的假设有问题。

w***g
发帖数: 5958

来自主题: Programming版 - 有人搞P2P lending吗？

x***u
发帖数: 297

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

1
Domain knowledge 还是很重要的。
其实像ROC，AUC这些都是教过的好吧。

: 这本来就是内行和外行的问题啊

: 别人在学校里上课，看书，做研究

: 你现在抡起个轮子就想跑。。。

n******7
发帖数: 12463

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

。。。
我真不知道这几个metric 有什么复杂的
就是四个基本数加加除除的事情
小学二年级的数学吧
wiki上一张图都搞清楚了
之所以有这么些不同的算法
因为单个的指标往往是有bias的
而且对于不同的问题，有些指标比其他的更有实际意义
这都觉得难，以后遇到AUC咋办
更不说各种xIC了...

n*****3
发帖数: 1584

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

个人觉得只要知道 FDR，fnr,
auc /roc

x***u
发帖数: 297

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

n******7
发帖数: 12463

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

n*****3
发帖数: 1584

来自主题: Programming版 - ML 最讨厌的就是搞了太多专业名词

个人觉得只要知道 FDR，fnr,
auc /roc

w***g
发帖数: 5958

来自主题: Programming版 - 为什么grid search伤人品

起个主贴把则个问题讲讲透。一般来说不可能写出一个各方面全优的算法。
比如速度，占用内存，精度一般不能同时做到最优。精度有各种评价方法，
一般也不能同时做到最优。所有这些方面构成一个design space。软件设
计的时候一般就是选design space的一个子空间，然后允许用户通过调整
(meta)参数来微调子空间中的位置。这个子空间的形状一般不是规则的，
参数一般也不是正交的。参数之间的各种关系可能连作者本人都未必想清
楚了。比如有时候程序写着写着会出来一个可以加参数的位置，然后就
出来一个参数。而且这种参数往往很多，一般会被命名为alpha,beta,
gamma,delta,eta,lambda等等，因为含义作者也没法用一两个英文字母
说清（有例外，比如regularization权重一般也是希腊字母)。
Grid search的问题是，很可能就碰到了那种作者都没有想清楚的奇葩
combination，这个combination恰好在用户的某个评价标准下(比如AUC)
高了0.001，但是在别的标准下差得比较多(比如accuracy差0.01,
cross entropy差0... 阅读全帖

g****t
发帖数: 31659

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

各种adaptive线性回归技术试过了吗？
除了auc别的统计指标怎么样？

w***g
发帖数: 5958

来自主题: Programming版 - 训练模型该拜哪个菩萨？

炼金术人力不能控制outcome，我觉得需要拜菩萨才行。
据说核磁共振励磁的时候都要摆猪头开光的。几千万的设备，
励磁失败一次损失百万记。据西门子的人说GE的人一般都会在
励磁之前拜祭一番。
这两天看美国众神听有感触。我觉得必然是有AUC神的。

m******r
发帖数: 1033

来自主题: Programming版 - Hinton的capsule理论是不是证明是伪科学了？

这话有意思。比如猫90%, 狗10% . 你分完了以后，难道不是更加不对称? 两类(
dichotomy)变成了四类？
以前向dong老师请教过不对称问题， dong老说做oversampling, 提高精度，损失了另
外一个指标（记不清了）。我最近试验了一下，确实如此（恰好10% vs 90%），AUC提
高了1% . 我估计我接触的问题，做不做过度抽样，就那个样子。如果是万分之一，百
万分之一的问题，会有本质的提高。不过这种问题也轮不到我做。

m**z
发帖数: 787

来自主题: Biology版 - 请教native page

对样品的要求也很高，比如纯度，稳定性什么的，因为一转就是十几个小时(velocity)
甚至两三天的（equilibrium).数据处理也不容易.不过对于oligomerization方面的问
题的确是best experiment to do, just not easy...

AUC

s*****5
发帖数: 52

来自主题: Biology版 - 求问蛋白质组学proteomics找工作的问题

percolator我有一个问题，就是如何控制protein level的FDR呢？PD是自己search了
decoy database，但是decoy spectra输出都没有，没法从结果直接控制protein FDR。
还有就是我比较过mascot+percolator和MSGF+的结果，用一个spike in的sample（就是
知道真值的），percolator的结果不太可靠。不知道你们是不是有相关的测试呢？可以
交流交流。我觉得identification非常重要，但是都没有一个统一去control和
evaluate的标准。
R包干的事情说起来有点长，简单来讲就是把peak AUC的data 和quantifiable
spectrum associate起来，然后再normalization, clean-up, aggregtation等等。。。

的R

s*****5
发帖数: 52

来自主题: Biology版 - 求问蛋白质组学proteomics找工作的问题

前辈说的precison/accuracy指的应该是LC-MS定量方法的吧，FDR不会影响这个，特定
到每一个肽或者蛋白也不会有太大影响。而且，不好的spectrum variation都比较大，
一般会被排除。
但是，我觉得FDR会影响整体数据的precision/accuracy.这升高的3%FDR，意味着整个
的score cutoff提高了很多，多的不只是200个蛋白，还有上千的肽和可能上万的PSM.
3%的protein FDR的提升几乎等同于多加了>10% 的PSM，假设一个run有8w个spectrum,
包含进来的质量不好的PSM可能大几千。我们现在定量是base on Peak AUC, 所以这些
低质量的spectrum对整体的定量都会有影响。假设我们spike in了几十个蛋白在背景样
品里，那么这个population的precision可以用coefficient of variation from
median来表示，accuracy用deviation of median from true ratio来表示的话，这些
低质量的PSM肯定会导致整体数据q... 阅读全帖

s*****5
发帖数: 52

来自主题: Biology版 - 求问蛋白质组学proteomics找工作的问题

s*****5
发帖数: 52

来自主题: Biology版 - 求问蛋白质组学proteomics找工作的问题

e*********6
发帖数: 3453

来自主题: Biology版 - 请教个bioinformatics的问题

在bioinformatics里边，各种做prediction是个热门话题，但是有个问题始终搞不明白
比如看这篇文章，http://www.nature.com/articles/srep28517
他的方法以及他对比的方法，都有1%的false positive，这在同类研究中已经算是非常
好的成果了, 画个ROC算个AUC都很好看，但
是有个问题很不解，因为在整个基因组上，想要的interesting points（这里是
promoter）是非常非常稀疏的，也就几万个，人体基因组有3 billion bp，就算100个
bp一个间隔来创造备选的样品（长度200bp来算只有50% overlap了），这就有30
million个samples，就算百分之一的false positive，那就有30万个false positive，
已经是true positive的好多倍了，这种问题如何在进一步解决呢？
并且，类似这种paper，包括发在非常decent，high-impact的journal上的（包括plos
系列，BMC系列，包括这篇是nature系列的），都没提到过如何解决这... 阅读全帖

i*e
发帖数: 352

来自主题: Biology版 - machine learning来对GWAS结果建模

GWAS是很多，但是拿到数据，尤其N多个GWAS，也不是很简单
summarized results都不一定好拿
更不要说需要genotypes的情况下
有用GWAS top SNPs做polygenic risk score来预测
AUC对比之前用流行病或者临床指标的模型
结果没有太明显突出增强
也有用全基因组的SNPs做类似的工作
或者增加几个权重，比如SNP annotation或者local ancestray之类的
GWAS已经被统计流行病那拨人玩残了
genotypes是一方面，但是疾病表型是另一方面，而且是最重要的一个
这方面高质量的数据，不一定好拿到
此外像shakuras说的那种进一步结合或者转换到更有生物学意义的数据，可能是一个方法
生物学有时空性
但是目前这种snapshot类型的数据来源
多少能反应生物学，那就另说了
但是能玩

s******s
发帖数: 13035

来自主题: Biology版 - 一道药厂computational biology的面试题

不太明白这个均值为1有啥用途，可能是让你提到有些algorithm
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模，而是让你找subset.
找subset要么自动找，要么手动stepwise找。前者可以用用lasso
啥的，后者就是把p-value大的，或者information gain多的predictor
一个一个加回去，直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了，比如logistic lasso.
机器学习玩的不多，有了feature selection，后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释，药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.

现有
得范
达值

b*****6
发帖数: 111

来自主题: MedicalCareer版 - 紧急求助关于德州的match申请

因为人在德州，正在申请德州的IM 和 FM。从一个FM program director 听说德州医生
协会最近有个名单，只有名单上合格的学校才有认证资格，才可以在德州做住院医。他
给我的名单上中国无一所医学院校合格。请看附件。按此类推，我们就全部无法申请德
州的program了。请大家核实并求助。
附件好像粘不上。有30页呢。贴下面吧。大家不要嫌长。总之所有学校都有代码。台湾都有几所在名单上。但是大陆一所没有。怎么办！！！！！
Schools Whose Graduates Do Not Have To Prove
Substantial Equivalence Of Their Education
100 ALABAMA
102 UNIV OF ALABAMA SCH OF MED, BIRMINGHAM
104 BIRMINGHAM MED COLL, BIRMINGHAM (EXTINCT)
106 UNIV OF SOUTH ALABAMA COLL OF MED, MOBILE
300 ARIZONA
301 UNIV OF ARIZONA COLL OF MED, TUC... 阅读全帖

M****a
发帖数: 577

来自主题: MedicalCareer版 - Ross 医学院是个什么水平的医学院？

Ross,还有其他加勒比医学院，最大的问题是
1. 不在美国属地上，这个是学校天生没法解决的问题。相比之下，波多黎各的四所医
学院，因为岛本身附属美国，所以不算加勒比医学院。
2. 没有University Hospital，这个是学校可以解决但是不愿意解决的问题。没有大学
附院，faculty基本没办法申请grant，学校因此跟community college差不多。学生只
能到美国本土少数几所community hospital实习，很少有机会接触tertiary care。这
倒不是说community hospital教学都不好，但是加勒比医学院学费比美国本土最贵的医
学院还要贵，学生花一分钱买不到一分货。
有个朋友去加勒比念了个医学院，不是Ross，也不是AUC，三年级去Colorado某个医院
做psych实习，6个星期跟着转的attending居然不是精神科医生，而是个外科医生，教
学质量可见一斑。

linkedin

l**********t
发帖数: 1212

来自主题: Nursing版 - 说说我的工作2周的经历吧，续

我们的training管理和你得差不多。也有个education nurse 来负责管理我的进程。每
周我得preceptor给我的evaluation 交给她，然后她也来问问我有没有问题。可是我觉
得我的医院剥削的很厉害，要求太多，口号很多，什么Service first, go above and
beyond. daisy award.反正就是要求病人是上帝，我们就因为正点工资全多成了奴才。
所以很多事情员工都是走形式，大部分人并不真正的care.
我们是med/surg cardio/pulmonary 所以带我的护士每次正常有6-8个护士不等。我就
share她两个患者.她在忙自己的患者还要来帮我，很多时候我多是到处找她。不过我们
有tracker，去auc问一问就知道她在那里了。
可以看出来你的医院的环境很好，也有可能是icu 吧，所以培训马虎不得。
我们的floor都是心肺问题，很多都是end stage POCD, ESRD，CHF. 我的preceptor相
比较而言还是很负责的。
不管怎么说我还是很羡慕你的。
对了我们的order没有你得那么细，就是below 60

w****r
发帖数: 90

来自主题: Pharmaceutical版 - 美国仿制药行业点滴

呵呵, 你说我没有根据批评这篇贴子么? 说实在话, 这篇东西里半吊子的地方太多, 我
实在懒得说他为什么错了. 我就随便每段说说, 懂的自然就知道了, 不懂的就歇菜吧,
懒得educate你们了.
1. 仿制药在品牌药专利保护失效后进入市场.----胡扯. 自己想想为什么?
售价远低于品牌药---胡扯. 要看有几家同时被approve. 垃圾药确实便宜, 象
metformin这样的, 几分钱一片儿. cipro这样的, 十七家同时被approve, 便宜. 自己
去问问cardizem CD, welbutrin XL这样的比brand 便宜多少.
2. 即所谓Bio-equivalency. 具体办法是通过进行药代动力学实验, 测量药
物在人体血液中的浓度与时间的对应关系, 获得药代动力学曲线. 曲线中的关键数据如
最大浓度(Cmax)和曲线下面积(AUC)应在创新品牌药的80%~125%以内. ---胡扯. 原因:
ratio, confidence interval, metabolite. 搞清楚了再来说BE的事.
3. 仿制药行业通常没有销售代表---胡扯. 先问问再说.

i**f
发帖数: 1195

来自主题: Pharmaceutical版 - 求助！can noncompartmental PK produce the esitmate of inter-individual variability?

the noncompartmental method using trapezoidal rule can give the estimates of
CL,V,AUC etc.. and the standard deviation of the estimates. However I am
confused whether it can estimate the IIV or IOV?
Any input is greatly appreciated!

a*******o
发帖数: 280

来自主题: Pharmaceutical版 - 求助！can noncompartmental PK produce the esitmate of inter-individual variability?

noncompartmental PK approach is still a semi-model based approach with
parameterizations such as
CL=F*Dose/AUC
of course you can estimate the IIV or IOV for parameters such as CL.
Unbelievable, I still know this stuff!!!

of

i**f
发帖数: 1195

来自主题: Pharmaceutical版 - 求助！can noncompartmental PK produce the esitmate of inter-individual variability?

Thank you for the input. could you enlighten more?
calculate CL=F*Dose/AUC for each subject
average=》mean of CL (CL_bar), CL_bar is the estimate of the population CL
calculate: sum(CL_bar-CL)^2/n-1=>standard deviation of CL,did you mean this
is the IIV for CL?
Thanks!

j******w
发帖数: 97

来自主题: Pharmaceutical版 - 请问一下有没有什么地方可以查到常见药物在人体内的浓度啊？

If it is an approved drug, the package insert has the information on AUC and
Cmax. Not sure if it contains the same information on animal studies though
. The package insert is available on the internet. Just google it.

m****p
发帖数: 412

来自主题: Pharmaceutical版 - Janssen biophysics characterization Scientist position

回报本版。
please PM me your email and a link of your CV for referral
Responsibilities include:
Collaborative interactions with multiple groups and departments
Communication of results to functional and cross-functional teams and
writing analytical sections for regulatory submissions
The individual will need to maintain laboratory notebooks in a GLP compliant
manner and prepare written protocols, reports and SOPs
Qualifications:
A Ph.D. in biophysics, biochemistry or a related field OR a MS with at l... 阅读全帖

l******k
发帖数: 27533

来自主题: Pharmacy版 - strep throat 用amoxicillin的dosage regimen应该是怎样的？

。。。
我们在说ABX的MIC
dosing frequency for time dependent or concentration dependent ABX
这正是ABX跟其他一般药不同的地方，不是单看一般药代学的AUC或者SS。。。
还有，至少5个半衰期才能达到SS
对了，其实100%的physician用google的

u*******s
发帖数: 688

来自主题: Pharmacy版 - 孕期药物注意事项，看看你还记得哪些？

Q1：孕妇的哪些药代动力变化会影响药物使用？
A1: 药物吸收增加(cmax, AUC),albumin降低（影响protein binding的药物的自由浓度
），最重要的变化之一是代谢的P450变化：3A4, 2D6活动增加, 1A2的活动降低。最后
是Clcr会增加，鉴于肾脏供血增加，GFR也变大。
Q2: 现在FDA对于孕期药物风险分类有什么态度？
A2: 逐渐淡化，因为简单的A,B,C,D,X分类的信息量不足，产生许多误导。C类药物最不
明确。FDA对于新药已经强制要求有fetal risk和lactation risk summary。淡入的是
每种药独立的数据和风险归类。
Q3: 孕期最重要的几项维生素补充有哪些?
A3:
1）铁元素是生产红细胞的必须，每天补充含量为30-65mg。鉴于前三月的孕吐严重，可
以考虑前三月过后开始补充。
2）钙元素为骨骼发育的必须，每天补充1000-1200mg钙元素。
3）叶酸则比较特殊。最好的情况是怀孕前1个月开始每日摄入0.4mg（ACOG&AAP甚至推
荐每一个年龄段适宜生育的女性每日补充0.4mg叶酸）。怀孕后每日至少摄入0.8m... 阅读全帖

c******w
发帖数: 133

来自主题: Pharmacy版 - 请问跟政府贷款的事?

不知道方不方便在这问,Pharmacy school私立一年也要四万多学费+生活费=6万,四年下
来可能要25万,federal government可以借到这们多钱吗?我问了一个美国人在加勒比海
AUC念医学(大概要30万),他是有他妈cosigner,所以可以借到这们多钱,我有可能也去加
勒比海念医学,如果不行就在德州念药学
我有绿卡且有良好的credit score,但没有cosigner(爸妈不在美国),请问有人有跟我同
样情况?成功解决钱的问题,如何解决钱的问题,非常感谢回答

w**********y
发帖数: 1691

来自主题: Quant版 - 如果能够55%正确预测第二天股市的走向，应该如何操作？

展开说说?
现在在参加这个比赛:
http://kaggle.com/informs2010?viewtype=leaderboard
但是这个比赛避免不了用future information.我也focus在用future information的
model上,这个最高准确性可以达到98%.
重要的是,
上次简单尝试了两个model,只用1个小时前的信息(log return)来预测现在的涨跌.
完全随机的实验,给出涨跌的概率预测,平均准确率(AUC)和testing data的准确率都可以达到70%.
如果70%或者更高的概率预测涨跌,能怎么应用到实际操作中呢?

e***y
发帖数: 273

来自主题: Quant版 - 如果能够55%正确预测第二天股市的走向，应该如何操作？

what do you mean to use "future information" ?
is it meaningless to do so ?
> 只用1个小时前的信息(log return)来预测现在的涨跌.
>: 完全随机的实验,给出涨跌的概率预测,平均准确率(AUC)和testing data的准确>率
都可以达到70%.
>: 如果70%或者更高的概率预测涨跌,能怎么应用到实际操作中呢?
只用1个小时前的信息(log return)来预测现在的涨跌.
that is very impressive.

可以达到70%.

a****y
发帖数: 1035

来自主题: Science版 - 汤光文的黄金大米paper用的是氘同位素标记，无放射性。

【以下文字转载自 Military 讨论区】
发信人: Fabu88 (范小楼), 信区: Military
标题: 汤光文的黄金大米paper用的是氘同位素标记，无放射性。
发信站: BBS 未名空间站 (Thu Dec 6 11:38:21 2012, 美东)
汤光文的黄金大米paper用的是deuterium同位素标记，无放射性。这篇paper用
了68个小孩。（PubMed）汤的问题是对规则
的漠视，以及受试者的不知情。在这篇paper中，有以下声明：The study recruitment
processes and protocol
were approved by the Institutional Review Board–Tufts
Medical Center in the United States and by the Ethics Review
Committee of Zhejiang Academy of Medical Sciences in China.
Both parents and pupils consented to partic... 阅读全帖

m********1
发帖数: 368

来自主题: Statistics版 - 请教SAS IML调用DATA step数据的问题

向各位SAS IML达人请教一个SAS IML调用DATA step数据的问题。程序见下方。print
alpha beta可以正常输出，但是计算积分却报错，不知道是什么缘故？
注：我在写一个很复杂的宏，这是我简化的一个程序。我必须调用DATA eval里面的数
据，而不能直接在IML里面定义这些数据。
/* Define the Integrand in AUC Quaduature */
%MACRO TPR(FPR, alpha, beta);
1-1/(1+exp((log(&FPR./(1-&FPR.))+&alpha.)*exp(&beta./2)));
%MEND TPR;
DATA eval;
input alpha beta;
cards;
2.6728 -0.1220
;
RUN;
PROC IML;
use eval;
read all;
print alpha beta;
start fun(FPR);
TPR=%TPR(FPR, alpha, beta);
return(TPR);
finish;
/* Call QUAD */
bound = { 0 1

o******6
发帖数: 538

来自主题: Statistics版 - [合集] 怎么算AUC

☆─────────────────────────────────────☆
daisytang (daisy) 于 (Tue Mar 4 09:12:47 2008) 提到:
area under the curve
要用SAS编程，哭了，一窍不通
☆─────────────────────────────────────☆
dragoninsea (鲜花送给谁?) 于 (Tue Mar 4 10:32:28 2008) 提到:
see your mailbox.

☆─────────────────────────────────────☆
daisytang (daisy) 于 (Tue Mar 4 10:48:54 2008) 提到:
谢谢，看到了很有用
我其实是要和baseline比较
所以我感觉是longitude data
接着是两周，三个月，6个月，一年的数据
都要比较起来
☆─────────────────────────────────────☆
smileli (stop) 于 (Thu Mar 6 23:45

s*********e
发帖数: 1051

来自主题: Statistics版 - How to calculate the area under a curve if just know values of x and y?

copied from my blog.
hth.
%macro roc(data = , score =, y = );
*******************************************;
* THIS MACRO IS TO CALCULATE AUC (AREA *;
* UNDER CURVE) USING TRAPEZOIDAL RULE *;
*-----------------------------------------*;
* INPUT PARAMETERS: *;
* DATA : INPUT DATASET *;
* SCORE: SCORE (HIGHER ==> BETTER) *;
* Y : 0/1 TARGET (1 ==> BAD) *;
*******************************************;

data _tmp1;
set &data;
wh

D******n
发帖数: 2836

来自主题: Statistics版 - [R] ROC curve怎么指定cutoffs?

if u want FPR at a certain cutoff, it is FPR at a certain cutoff.
ROC is used to get the big picture of the performance of the algorithm
as the cutoff varies.
And AUC is used to describe the discriminatory power of the alogorithm.

D******n
发帖数: 2836

来自主题: Statistics版 - R-square of logistic regression

a curve doesnt approach any scalar value. a curve is a curve.
it is the AUC(area under the roc curve) should be as close as possible to
one.

j*****e
发帖数: 182

来自主题: Statistics版 - R-square of logistic regression

The best curve is the line segment over the unit interval, who interceps
with the vertical axis at 1. It is only at this situation that the AUC is
one.

l***a
发帖数: 12410

来自主题: Statistics版 - how do you deal with sparse data?

i already have the data and trying to model the good/bad using logistic
regression. if I simply regress on the raw data, the model has a AUC of 0.75
and correct rate of 90% which looks not bad. but when I look at the correct
rate for good and bad the performance will look like
good: 1798 correct and 152 incorrect
bad: 2 correct and 48 incorrect
overall correct rate is 90% but for the bad part it's only 4%. I think that'
s due to the data is sparse. how do I work on it?

j*****e
发帖数: 182

来自主题: Statistics版 - how do you deal with sparse data?

Suppose your data is a random sample.
Then, the marginal prob of good is 5%.
Given a set of predictor value x, P(good|x) will be low even though you did
observe good at x. If you compare P(good|x) with 0.5(the default cutoff), of
course, the correct rate of predict good is low. This is how it should be.
AUC is not the best to check model fit, neither does correct rate.
Change the cutoff to a lower value ,say 5%, and check the correct rate.
I don't think resampling will make any difference.
Howev

D******n
发帖数: 2836

来自主题: Statistics版 - proc logistic: how to build 2 X 2 classification table

check out ROC and AUC.

D******n
发帖数: 2836

来自主题: Statistics版 - How to compute the area between my curve and diagonal line

ppl also use the zigzag version of AUC calculation too

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天