Fraud detection model 在testing dataset 中效果很差，求原因 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - Fraud detection model 在testing dataset 中效果很差，求原因

相关主题
● 问个关于lasso的问题	● 求教一个模型/预测问题
● 报面筋求实习合租 (转载)	● 新手请教logistic regression
● An interview question	● 做credit risk scorecard的朋友们，请进来，有问题求教
● 问两个个KNN的问题	● good classification methods for high dimension data
● 抓狂！为啥选出来的predictor都这么差	● 哪位牛人有L1 SVM的matlab code
● 报两个offer-updated-附面试心得 (转载)	● 找工作总结 [下]
● logistic regression结果释疑，解读	● 找工作屡败屡战，求提携，求建议 (转载)
● 为啥做了segmentation后模型fit更差？	● data science 面试求教

相关话题的讨论汇总
话题: fraud话题: model话题: dataset话题: training话题: testing

进入Statistics版参与讨论

(共1页)

p*****y
发帖数: 34

近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
问题：model 在testing data set中的performance 远远差于training dataset中的
performance… training data 是3-4个月的，testing data 是随后15天的。想了很久
也没有想通，莫非是fraud trends 变得太快?
不知道当前业界比较流行的方法是什么，很想知道目前最好的方法能捉到fraud的比例
有多少( 70%? 还是 40%就很不错了？)
向版上大牛真诚请教！

d******e
发帖数: 7844

怎么个差法？
precision差还是recall差？
data是balanced么？

【在 p*****y 的大作中提到】

: 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
: regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
: 问题：model 在testing data set中的performance 远远差于training dataset中的
: performance… training data 是3-4个月的，testing data 是随后15天的。想了很久
: 也没有想通，莫非是fraud trends 变得太快?
: 不知道当前业界比较流行的方法是什么，很想知道目前最好的方法能捉到fraud的比例
: 有多少( 70%? 还是 40%就很不错了？)
: 向版上大牛真诚请教！

h***i
发帖数: 3844

明显不是嘛， model调的不对

【在 d******e 的大作中提到】

: 怎么个差法？
: precision差还是recall差？
: data是balanced么？

d******e
发帖数: 7844

我这是启发式发问... ...
我猜LZ的问题十有八九就是unbalanced的training问题，做一个weighted estimate应
该就OK了。

【在 h***i 的大作中提到】

: 明显不是嘛， model调的不对

h***i
发帖数: 3844

agree.

【在 d******e 的大作中提到】

: 我这是启发式发问... ...
: 我猜LZ的问题十有八九就是unbalanced的training问题，做一个weighted estimate应
: 该就OK了。

p*****y
发帖数: 34

testing data 中很多good transaction 被赋予了较高的score（可以理解为odds），
而不少fraud transaction 却被赋予了较低的score,简单来说，FP%和FN%都比training
data 的要高。
不是balanced, positive cases <1%. training data其实已经对negative cases抽样
了，令positive% 在10%-20%之间。

【在 d******e 的大作中提到】

: 怎么个差法？
: precision差还是recall差？
: data是balanced么？

c***z
发帖数: 6348

Classical example of overfitting
http://en.wikipedia.org/wiki/Overfitting

【在 p*****y 的大作中提到】

p*****y
发帖数: 34

谢谢回复，
其实我这里所说的用training dataset建model,其实是用k-fold cross validation了
的，所以我觉得overfitting可能会有，但不是因为没有validating的原因

【在 c***z 的大作中提到】

: Classical example of overfitting
: http://en.wikipedia.org/wiki/Overfitting

c***z
发帖数: 6348

Cross validation dataset also participates in the training.

s*******e
发帖数: 1385

找几个model里面重要的variable，在training和validation samples上compare一下他
们distribution，以及和target之间的关系！

【在 p*****y 的大作中提到】

相关主题
● 报两个offer-updated-附面试心得 (转载)	● 求教一个模型/预测问题
● logistic regression结果释疑，解读	● 新手请教logistic regression
● 为啥做了segmentation后模型fit更差？	● 做credit risk scorecard的朋友们，请进来，有问题求教
进入Statistics版参与讨论

p*******i
发帖数: 1181

Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =

p*****y
发帖数: 34

这种情况用auc看不出来，因为good order >> fraud order.
btw, 我的Model 的auc也大于0.9

【在 p*******i 的大作中提到】

: Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =

f*******n
发帖数: 2665

fraud在数据中是rare event所以要down sample good orders.
还有chargeback要在order date3至4个月后才有较完整的数据，因此选数据时要考虑这
一点

【在 p*****y 的大作中提到】

d******e
发帖数: 7844

rare event看AUC根本没用。
一定要细比precition和recall

【在 p*******i 的大作中提到】

: Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =

s****u
发帖数: 1200

纯粹来膜拜0.9. Response model 我基本没见过大于0.7

★ 发自iPhone App: ChineseWeb 7.8

【在 d******e 的大作中提到】

: rare event看AUC根本没用。
: 一定要细比precition和recall

l*********5
发帖数: 13

你好，我后天刚好要面试一个Fraud Analysis 的职位，能否告知一下你的模型选取的
变量有哪些？最后的fraud detection rate大概是多少？就当帮同胞一个忙，万分感激
！如果可以，我们可以通过邮件交流：l*********[email protected].

c***z
发帖数: 6348

业界比较流行的方法 seems to be using mixed model

k*z
发帖数: 4704

有case study么？想学习一下。

l*******s
发帖数: 1258

详细讲讲你怎么10-fold cross validation的
按说10-fold时，应该只用test data来test啊，那么你是怎么得到的用training data
来test的结果？

【在 p*****y 的大作中提到】

: 谢谢回复，
: 其实我这里所说的用training dataset建model,其实是用k-fold cross validation了
: 的，所以我觉得overfitting可能会有，但不是因为没有validating的原因

P******X
发帖数: 482

ada boost

(共1页)

进入Statistics版参与讨论

相关主题
● data science 面试求教	● 抓狂！为啥选出来的predictor都这么差
● 问下如何处理panel data的预测问题？	● 报两个offer-updated-附面试心得 (转载)
● training dataset validation dataset and test dataset	● logistic regression结果释疑，解读
● Principal Components Analysis 中 factor 选择的问题	● 为啥做了segmentation后模型fit更差？
● 问个关于lasso的问题	● 求教一个模型/预测问题
● 报面筋求实习合租 (转载)	● 新手请教logistic regression
● An interview question	● 做credit risk scorecard的朋友们，请进来，有问题求教
● 问两个个KNN的问题	● good classification methods for high dimension data

相关话题的讨论汇总
话题: fraud话题: model话题: dataset话题: training话题: testing

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天