第6页 - 关于auc的讨论汇总 - 话题女王

E**********e
发帖数: 1736

来自主题: Statistics版 - lending club的notes 数据 (转载)

【以下文字转载自 DataSciences 讨论区】
发信人: ExpressoLove (MoneyForNothing), 信区: DataSciences
标题: lending club的notes 数据
发信站: BBS 未名空间站 (Thu Apr 21 23:28:32 2016, 美东)
我利用空余时间做了下risk modeling。之所以做，就是想用来构成投资建议。比如
，开个户，然后用自己的模型来选notes。
lending club的noets 有22% default rate，挺高的啊。自己的模型能到AUC 0.702，
就是最简单的logistic regression。 random forest 和boosting 要低点。当然这个
跟没有细调参数有关。不过还是想用logistic regression，其他的方法只是作为个
参考。
同时也试着做了个kaggle的give me some credit。目前logistic regression 可以到
0.8602. 这个比最好的0.8637要低点。不够考虑模型的简单性，结... 阅读全帖

l***j
发帖数: 59

来自主题: Statistics版 - 2016DS找工小贴士系列之六：技术不是全部

比较认同
但是关于技能的顺序，我觉得可以调整一下，把第一技术能力放在最后即可。
第二三四条，归结成一句话，就是要会忽悠。在传统行业尤其明显。
非IT互联网行业里，DS面临的stakeholder往往是非技术出身，思考问题从商业出发。
对于是否能认可你做的model，进而是否认可你这个人，唯一的途径就是口头交流。
别指望用什么技术指标说服他们，比如AUC，F1，他们不懂，也不愿意懂。他们只关心
：你这model能给我带来多大收益，降低多少成本，能提高多少运营效率。这些只能通
过你给他们做presentation做ppt开大大小小的会来让他们知道。至于model本身，你就
是用最简单的linear regression，他们也不在乎。
或许你会说，我只在IT企业互联网企业里做不就行了，stakeholder往往有技术背景，
但是别忘了，招聘DS的主力，其实是传统非技术行业，而这些领域，往往也是DS最有用
武之地的。

y**3
发帖数: 267

来自主题: Statistics版 - ROC Analysis - help needed!

Not sure what you are talking about. You mentioned binary parameter and
binary outcome.
My guess is your dependent variable is binary. For your A, the predictor set
are all binary; your B, the predictor set includes binary and continuous.
for either of the two, you can compute AUC for comparison

m*********k
发帖数: 10521

来自主题: WBCenter版 - 军版申请代发中秋国庆包

"[Military]
TempBM Sep 24 ● 庆中秋/国庆，发三黄包子！"
成功奖励 30 伪币的用户: Closingbell, lcer, txak47, Lavaflow, futurist,
arthir, lz2015, newmitbbser, ebizmust, fwdo, madrigal, shenqi, Karcas2,
redalert19, beijingren, szxp, caoyu, Texcat, Mutombo, whoswhom, Coralreef,
fang0219, sanguo, take5, sinical, metamore, JJxb, hwh, biokold, zhonghuahua,
hourwork, Einhorn, classik, NYKnicks, rewarding, qiatdc, icast, Rosefield,
xinchong, stbmib, lefer, AFADFF, dagger, Carrpool, pintujie, huahuaniu, BIIB
, chengyixin... 阅读全帖

m*********k
发帖数: 10521

来自主题: WBCenter版 - 军版申请代发双蛋节日包子

[Military]TempBM Dec 24 ● 庆双蛋，吃包子?
成功奖励 50 伪币的用户: laocat, dayandnig1, Iaocat, noparking, IFloating,
repeating1, cuicuifeng, Nacho2000, xwzxjhq, calendaryear, eNerd, hyff009,
tyd, cdz, Uther, Qingeer, zycyls, walkingtree, huahuaniu, zujm, goodman35,
gra2012, xxm0822, dgjjkycg, thegadfly, yesok, BIIB, big7, tgtg, BCQ,
NYKnicks, rtfm, windsurfer, szxp, comethalley, vandieman, lubitcn, cw9,
wujiandao84, lzlzlzlz, fakestory, keernest, daniel123, wox, txak47, tootsie,
pathdream, violetlvsoso, m... 阅读全帖

yf
发帖数: 272

来自主题: Medicalpractice版 - 求助-乳腺癌术后治疗方案和营养

I guess they used dose dense AC, so it's every two weeks protocol and it's
standard. Neulasta is a must for dose dense AC, or neupogen. AC is Q 3wks,
the dose is different from dose dense AC. But dose dense AC is a little
more effective than AC and is the standard now.
The doctors in Tianjing are doing the right thing.
If your mother has weak heart which is proven by ECHO or MUGA scan, then you
can consider TCH(Docetaxel (Taxotere) 75 mg/m2 iv d1 q3w x 6 cycles
Carboplatin (Paraplatin) AUC 6 iv... 阅读全帖

h*****7
发帖数: 6781

来自主题: DataSciences版 - 现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊

Kaggle奖金太少，NM AUC小数点后三位分胜负实在太扯了。大点的项目一个人业余搞根
本拼不过专门的学生屌丝团队还不如专注工作
以前Google举行过周赛算法比赛，全C++拼速度拼脑筋，那才刺激，也赚。国内都是几
个学校的ACM队员去捞外快，不过那时候人民币是8:1美元，国内物价也低

kaggle

c***z
发帖数: 6348

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

没有看错的话，feature hash增加的是速度，而不是精度吧
而且matrix也不解决sparsity的问题，不如用set
个人觉得问题的关键是click是rare event，所以相应的要采用resample + weighted
cost function （对于RF，就是balanced＋weighted RF）
这里的精度是AUC还是F1 score？

i**********a
发帖数: 149

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

大牛说的没错，feature hash只是另一种代替one hot encode的model categorical
variable的方法，好像跟SGD常用。会不会提高精度很难说，貌似很多时候精度跟
implementation也很相关。
kaggle论坛里面贴出来的方法就是online的train了一个logistic regression model，
用了feature hash。直接run那个code我得到了leadboard score 0.398，用了feature
之间的interaction反而降低了score，0.409
这里的score是logloss，不是AUC和F1

c***z
发帖数: 6348

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

i**********a
发帖数: 149

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

t*****e
发帖数: 364

来自主题: DataSciences版 - 一个面试题（predictive model） (转载)

What matters ultimately is the cost/benefit. The biggest problem with error
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.

a******9
发帖数: 20431

来自主题: DataSciences版 - 一个面试题（predictive model） (转载)

很基础的问题啊比如有可能是非常unbalancd的数据比如下雨天只占非常小的比例那
这个用总体的error rate做指标就很不好了 auc之类的可以避免一下

w**2
发帖数: 147

来自主题: DataSciences版 - 一个面试题（predictive model） (转载)

这题考的是evaluation metrics，像precision， recall， f1之类的。给的数据是
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model，是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy，你可以说accuracy可以很高，error很低的情况可能classifier
总是predict majority。
如果又多个model，你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心，多面几次就好了。

n*****3
发帖数: 1584

来自主题: DataSciences版 - 谁能谈谈sensitivity/specificity vs. recall/precision的背景吗

read the wiki for roc/auc

z****8
发帖数: 13

来自主题: DataSciences版 - 转行数据挖掘和机器学习

原文链接：
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统，在做具体的业务的时候
遇到了一些知识点，于是自己整理出来。如果有后来人需要转行的话，可以用这份资料
来参考一下。大牛请忽视以下的内容，小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备：
1. Hadoop，HIVE，SQL数据库操作。
Hive用于提取数据，做基本的数据分析。hive的基本函数，比如聚合函数，数学函数，
字符串的函数，连接表格函数等。hive的各种语句，比如if else，case等语句。
EXCEL的基本操作需要掌握，可以进行各种数据的处理、统计分析和辅助决策操作，用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python，c/c++，或者java，至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统，脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression（L... 阅读全帖

z****8
发帖数: 13

来自主题: DataSciences版 - 转行数据挖掘和机器学习

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标题: 做credit risk scorecard的朋友们，请进来，有问题求教
发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
可是现在越觉得有很多问题很疑惑，现在抛出来，请有经验的大侠指导。
公司是做loan lending的小公司，比较新，积累的charge off 数据4000不到，这个
跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
奇丑了，主要表现是training 和test的AUC差别很大，有很大overfitting。
现在问题来了。假设数据分成三个部分，数据一是training，数据二是test，数据三
是holdout。holdout 类似于future data，用来测试最后model 表现。所以这部分数
据只... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

刚进入这一行，没有大牛带。所以只能从书上的开始学习。只不过书上也是泛泛而谈
。不同的case，建模过程还是有点不一样。
lasso 的k fold可以决定一个shrinkage。自己也可以选一个。这本质上没有不同。
最后实在40-50个变量效果最好（对应的auc大，变量少）。你这个方法对应的只是一个
model。但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
查你的modeling 是不是可行，是不是robust。一旦cross validation的model check
好的话，就可以用数据一，二和三建立最后的model，用来预测将来的data。
现在用数据一和二来建模，我完全同意，sample size 比较小。不过cross
validation 是尽量避免用数据一和二来预选变量（从原来的1000多原始变量），这不
是我说的， machine learning 上建议的，最好用unsupervise的的方法选变量（就是
不要看response variable），同时我建模过程中也察觉到这一点。
我估计大银行的mode... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

s***n
发帖数: 678

来自主题: DataSciences版 - 求教分类问题中预测概率的问题

手上有个项目，预测给某货物定价为某值的时候，某顾客是否购买。第一个目标是看预
测概率的area under a curve，我第一个尝试是logistic regression ，大概在cross
validation数据上正确率85％，AUC也是0.85。用上random forest，能达到两个接近0.
9. 然后我再试着跑xgboost（objective = "binary:logistic"），能做到0.95. 这样
显然xgboost表现最好。
接下来问题来了，假设我们给所有用户同一个定价，要求优化一个盈利最大的定价，盈
利是单位商品的获利乘以顾客可能购买的概率。这个函数不难写，可是如果我用random
forest 或者xgboost的模型，会出现一个问题，就是假如我定价很大的时候，所有顾
客都已经只有很小概率购买（0.01甚至以下），可是这些概率就不变了，不再随定价的
升高而减小。那么随着价格不断抬高，盈利反而会变大，最后在某个高价的情况下，会
成为盈利最大的定价。这显然是不合理的。
如果用logistic regression 的模型，最大盈利的定价是在中间某合理定价... 阅读全帖

z****8
发帖数: 13

来自主题: DataSciences版 - 特征工程简介

特征工程简介
原文链接：
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
（I）特征工程可以解决什么样的问题？
特征工程是一个非常重要的课题，是机器学习中不可缺少的一部分，但是它几乎很少出
现于机器学习书本里面的某一章。在机器学习方面的成功很大程度上在于如果使用特征
工程。在机器学习中，经常是用一个预测模型（线性回归，逻辑回归，SVD等）和一堆
原始数据来得到一些预测的结果，人们需要做的是从这堆原始数据中去提炼较优的结果
，然后做到最优的预测。这个就包括两个方面，第一就是如何选择和使用各种模型，第
二就是怎么样去使用这些原始的数据才能达到最优的效果。那么怎么样才能够获得最优
的结果呢？贴上一句经典的话就是：
Actually the sucess of all Machine Learning algorithms depends on how you
present the data.
—— Mohammad Pezeshki
直接翻译过来便是：事实上所有机器学习算法上面的成功都在于你怎么样去展示这些数
... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - lending club的notes 数据

我利用空余时间做了下risk modeling。之所以做，就是想用来构成投资建议。比如
，开个户，然后用自己的模型来选notes。
lending club的noets 有22% default rate，挺高的啊。自己的模型能到AUC 0.702，
就是最简单的logistic regression。 random forest 和boosting 要低点。当然这个
跟没有细调参数有关。不过还是想用logistic regression，其他的方法只是作为个
参考。
同时也试着做了个kaggle的give me some credit。目前logistic regression 可以到
0.8602. 这个比最好的0.8637要低点。不够考虑模型的简单性，结果也不错，对吧。
一个体会，就是数据预处理很重要。前段时间看到有人说道feature engineering，很
是赞同。简单处理数据，只能得到0.8，但是用了feature engineering后就可以到0.
86.
开这个帖子就是想跟大家交流交流。我在想lending club的数据是不是可以还能提高
... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - lending club的notes 数据

这是一个regression 问题，预测的是default概率。 22%的default rate 是从loan的
历史数据里得到的charge off 的百分比。也就是说10个人里，最终有2个人charge
off。考虑到note是收的利息是10-20%（得比信用卡低个5-10%吧）.22%的charge off
还是比较高的。最近lending club 又提高了利息。
risk modeling 吧，还是AUC比较常用。说实话，没有一个metric 能适用普遍情况。

s****a
发帖数: 165

来自主题: _JapanView版 - 哪位同学在日本工作或学习的？

http://search3.auctions.yahoo.co.jp/jp/search/auc?p=%BF%AE%C4%B9%A4%CE%CC%EE%C
B%BE&auccat=2084022662&alocale=0jp&acc=jp
旧的巨便宜

s****a
发帖数: 165

来自主题: _JapanView版 - 哪位同学在日本工作或学习的？

嗯，不知道你要知道哪个，
反正你要的那2个都特便宜
估计到卖旧游戏的店里，几百日元（几美元）都可以买得到

http://search3.auctions.yahoo.co.jp/jp/search/auc?p=%BF%AE%C4%B9%A4%CE%CC%EE%C

j***y
发帖数: 2074

来自主题: _JapanView版 - 哪位同学在日本工作或学习的？

can't understand the content? can you explain?
thankx,

http://search3.auctions.yahoo.co.jp/jp/search/auc?p=%BF%AE%C4%B9%A4%CE%CC%EE%C

j***y
发帖数: 2074

来自主题: _JapanView版 - 哪位同学在日本工作或学习的？

是啊，我也估计是这样，可怎么办呢？太阁2的日文版网上还能找到，可我想要个光盘版
的，而烈风传则连硬盘版在国内都找不到。

http://search3.auctions.yahoo.co.jp/jp/search/auc?p=%BF%AE%C4%B9%A4%CE%CC%EE%C

s****a
发帖数: 165

来自主题: _JapanView版 - 哪位同学在日本工作或学习的？

用winmx或winnny，直接打日文检索，应该有的

版
http://search3.auctions.yahoo.co.jp/jp/search/auc?p=%BF%AE%C4%B9%A4%CE%CC%EE%C

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天