由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - lending club的notes 数据
相关主题
现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊Re: 攒人品,发Google Statistician/Data Scientist电面面经
有人考虑过kaggle上这个预测CTR的题目么?评价一个变量可预测性问题 (转载)
求教分类问题中预测概率的问题如何用python读取大数据
有一个统计MS,有没有必要再去读个on line analytics 或者 cs?model selection problem
【真心请教】选master project课题 - 有包子 (转载)NY Lead Data Scientist, Finance Credit
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?请问想找data scientist 工作应该怎么开始准备
请问如何完全跳到data scientist/analyst, 还有多大差距?retail bussiness预测客户的流失概率
报面筋求实习合租 (转载)问题:用VIF做feature selection
相关话题的讨论汇总
话题: lending话题: club话题: regression话题: 数据话题: auc
进入DataSciences版参与讨论
1 (共1页)
E**********e
发帖数: 1736
1
我利用空余时间做了下risk modeling。 之所以做,就是想用来构成投资建议。 比如
,开个户, 然后用自己的模型来选notes。
lending club的noets 有22% default rate,挺高的啊。 自己的模型能到AUC 0.702,
就是最简单的logistic regression。 random forest 和boosting 要低点。当然这个
跟没有细调参数有关。 不过还是想用logistic regression, 其他的方法只是作为个
参考。
同时也试着做了个kaggle的give me some credit。 目前logistic regression 可以到
0.8602. 这个比最好的0.8637要低点。 不够考虑模型的简单性, 结果也不错,对吧。
一个体会,就是数据预处理很重要。前段时间看到有人说道feature engineering,很
是赞同。简单处理数据,只能得到0.8, 但是用了feature engineering后就可以到0.
86.
开这个帖子就是想跟大家交流交流。 我在想lending club的数据是不是可以还能提高
点。 0.7不是很好, 最好可以上0.75. 那这样的预测才比较可靠。
谢谢。
l***j
发帖数: 59
2
关于evaluation,想知道这个model的target variable是啥,是一个分类问题,还是
regression?比如是预测default rate还是收益啥的。
那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
model值得信赖,比如全都标成0.
这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
来的,要有信心赛过他们
E**********e
发帖数: 1736
3
这是一个regression 问题, 预测的是default概率。 22%的default rate 是从loan的
历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
还是比较高的。 最近lending club 又提高了利息。
risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。

【在 l***j 的大作中提到】
: 关于evaluation,想知道这个model的target variable是啥,是一个分类问题,还是
: regression?比如是预测default rate还是收益啥的。
: 那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
: 再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
: model值得信赖,比如全都标成0.
: 这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
: 来的,要有信心赛过他们

l******n
发帖数: 9344
4
不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。最
简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和申
请贷款的分那30%collection charge.

off


【在 E**********e 的大作中提到】
: 这是一个regression 问题, 预测的是default概率。 22%的default rate 是从loan的
: 历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
: off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
: 还是比较高的。 最近lending club 又提高了利息。
: risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。

E**********e
发帖数: 1736
5
这个不会吧。要是真的,那要出大事情的。

:不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。
最简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和
申请贷款的分那30%collection charge.
l******n
发帖数: 9344
6
看底线在哪里啦



【在 E**********e 的大作中提到】
: 这个不会吧。要是真的,那要出大事情的。
:
: :不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。
: 最简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和
: 申请贷款的分那30%collection charge.
: :

1 (共1页)
进入DataSciences版参与讨论
相关主题
问题:用VIF做feature selection【真心请教】选master project课题 - 有包子 (转载)
[Data Science Project] Location data qualitykaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
若问entropy和gini的选择请问如何完全跳到data scientist/analyst, 还有多大差距?
一个面试题(predictive model) (转载)报面筋求实习合租 (转载)
现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊Re: 攒人品,发Google Statistician/Data Scientist电面面经
有人考虑过kaggle上这个预测CTR的题目么?评价一个变量可预测性问题 (转载)
求教分类问题中预测概率的问题如何用python读取大数据
有一个统计MS,有没有必要再去读个on line analytics 或者 cs?model selection problem
相关话题的讨论汇总
话题: lending话题: club话题: regression话题: 数据话题: auc