p*****y 发帖数: 34 | 1 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
问题:model 在testing data set中的performance 远远差于training dataset中的
performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
也没有想通,莫非是fraud trends 变得太快?
不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
有多少( 70%? 还是 40%就很不错了?)
向版上大牛真诚请教! |
d******e 发帖数: 7844 | 2 怎么个差法?
precision差还是recall差?
data是balanced么?
【在 p*****y 的大作中提到】 : 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics : regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的 : 问题:model 在testing data set中的performance 远远差于training dataset中的 : performance… training data 是3-4个月的,testing data 是随后15天的。想了很久 : 也没有想通,莫非是fraud trends 变得太快? : 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例 : 有多少( 70%? 还是 40%就很不错了?) : 向版上大牛真诚请教!
|
h***i 发帖数: 3844 | 3 明显不是嘛, model调的不对
【在 d******e 的大作中提到】 : 怎么个差法? : precision差还是recall差? : data是balanced么?
|
d******e 发帖数: 7844 | 4 我这是启发式发问... ...
我猜LZ的问题十有八九就是unbalanced的training问题,做一个weighted estimate应
该就OK了。
【在 h***i 的大作中提到】 : 明显不是嘛, model调的不对
|
h***i 发帖数: 3844 | 5 agree.
【在 d******e 的大作中提到】 : 我这是启发式发问... ... : 我猜LZ的问题十有八九就是unbalanced的training问题,做一个weighted estimate应 : 该就OK了。
|
p*****y 发帖数: 34 | 6 testing data 中很多good transaction 被赋予了较高的score(可以理解为odds) ,
而不少fraud transaction 却被赋予了较低的score,简单来说,FP%和FN%都比training
data 的要高。
不是balanced, positive cases <1%. training data其实已经对negative cases抽样
了,令positive% 在10%-20%之间。
【在 d******e 的大作中提到】 : 怎么个差法? : precision差还是recall差? : data是balanced么?
|
c***z 发帖数: 6348 | 7 Classical example of overfitting
http://en.wikipedia.org/wiki/Overfitting
【在 p*****y 的大作中提到】 : 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics : regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的 : 问题:model 在testing data set中的performance 远远差于training dataset中的 : performance… training data 是3-4个月的,testing data 是随后15天的。想了很久 : 也没有想通,莫非是fraud trends 变得太快? : 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例 : 有多少( 70%? 还是 40%就很不错了?) : 向版上大牛真诚请教!
|
p*****y 发帖数: 34 | 8 谢谢回复,
其实我这里所说的用training dataset建model,其实是用k-fold cross validation了
的,所以我觉得overfitting可能会有,但不是因为没有validating的原因
【在 c***z 的大作中提到】 : Classical example of overfitting : http://en.wikipedia.org/wiki/Overfitting
|
c***z 发帖数: 6348 | 9 Cross validation dataset also participates in the training. |
s*******e 发帖数: 1385 | 10 找几个model里面重要的variable,在training和validation samples上compare一下他
们distribution,以及和target之间的关系!
【在 p*****y 的大作中提到】 : 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics : regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的 : 问题:model 在testing data set中的performance 远远差于training dataset中的 : performance… training data 是3-4个月的,testing data 是随后15天的。想了很久 : 也没有想通,莫非是fraud trends 变得太快? : 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例 : 有多少( 70%? 还是 40%就很不错了?) : 向版上大牛真诚请教!
|
|
|
p*******i 发帖数: 1181 | 11 Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = = |
p*****y 发帖数: 34 | 12 这种情况用auc看不出来,因为good order >> fraud order.
btw, 我的Model 的auc也大于0.9
【在 p*******i 的大作中提到】 : Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =
|
f*******n 发帖数: 2665 | 13 fraud在数据中是rare event所以要down sample good orders.
还有chargeback要在order date3至4个月后才有较完整的数据,因此选数据时要考虑这
一点
【在 p*****y 的大作中提到】 : 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics : regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的 : 问题:model 在testing data set中的performance 远远差于training dataset中的 : performance… training data 是3-4个月的,testing data 是随后15天的。想了很久 : 也没有想通,莫非是fraud trends 变得太快? : 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例 : 有多少( 70%? 还是 40%就很不错了?) : 向版上大牛真诚请教!
|
d******e 发帖数: 7844 | 14 rare event看AUC根本没用。
一定要细比precition和recall
【在 p*******i 的大作中提到】 : Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =
|
s****u 发帖数: 1200 | 15 纯粹来膜拜0.9. Response model 我基本没见过大于0.7
★ 发自iPhone App: ChineseWeb 7.8
【在 d******e 的大作中提到】 : rare event看AUC根本没用。 : 一定要细比precition和recall
|
l*********5 发帖数: 13 | 16 你好,我后天刚好要面试一个Fraud Analysis 的职位,能否告知一下你的模型选取的
变量有哪些?最后的fraud detection rate大概是多少?就当帮同胞一个忙,万分感激
!如果可以,我们可以通过邮件交流:l*********[email protected]. |
c***z 发帖数: 6348 | 17 业界比较流行的方法 seems to be using mixed model |
k*z 发帖数: 4704 | |
l*******s 发帖数: 1258 | 19 详细讲讲你怎么10-fold cross validation的
按说10-fold时,应该只用test data来test啊,那么你是怎么得到的用training data
来test的结果?
【在 p*****y 的大作中提到】 : 谢谢回复, : 其实我这里所说的用training dataset建model,其实是用k-fold cross validation了 : 的,所以我觉得overfitting可能会有,但不是因为没有validating的原因
|
P******X 发帖数: 482 | |