由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - Fraud detection model 在testing dataset 中效果很差,求原因
相关主题
问个关于lasso的问题求教一个模型/预测问题
报面筋求实习合租 (转载)新手请教logistic regression
An interview question做credit risk scorecard的朋友们, 请进来, 有问题求教
问两个个KNN的问题good classification methods for high dimension data
抓狂!为啥选出来的predictor都这么差哪位牛人有L1 SVM的matlab code
报两个offer-updated-附面试心得 (转载)找工作总结 [下]
logistic regression结果释疑,解读找工作屡败屡战,求提携,求建议 (转载)
为啥做了segmentation后模型fit更差?data science 面试求教
相关话题的讨论汇总
话题: fraud话题: model话题: dataset话题: training话题: testing
进入Statistics版参与讨论
1 (共1页)
p*****y
发帖数: 34
1
近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
问题:model 在testing data set中的performance 远远差于training dataset中的
performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
也没有想通,莫非是fraud trends 变得太快?
不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
有多少( 70%? 还是 40%就很不错了?)
向版上大牛真诚请教!
d******e
发帖数: 7844
2
怎么个差法?
precision差还是recall差?
data是balanced么?

【在 p*****y 的大作中提到】
: 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
: regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
: 问题:model 在testing data set中的performance 远远差于training dataset中的
: performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
: 也没有想通,莫非是fraud trends 变得太快?
: 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
: 有多少( 70%? 还是 40%就很不错了?)
: 向版上大牛真诚请教!

h***i
发帖数: 3844
3
明显不是嘛, model调的不对

【在 d******e 的大作中提到】
: 怎么个差法?
: precision差还是recall差?
: data是balanced么?

d******e
发帖数: 7844
4
我这是启发式发问... ...
我猜LZ的问题十有八九就是unbalanced的training问题,做一个weighted estimate应
该就OK了。

【在 h***i 的大作中提到】
: 明显不是嘛, model调的不对
h***i
发帖数: 3844
5
agree.

【在 d******e 的大作中提到】
: 我这是启发式发问... ...
: 我猜LZ的问题十有八九就是unbalanced的training问题,做一个weighted estimate应
: 该就OK了。

p*****y
发帖数: 34
6
testing data 中很多good transaction 被赋予了较高的score(可以理解为odds) ,
而不少fraud transaction 却被赋予了较低的score,简单来说,FP%和FN%都比training
data 的要高。
不是balanced, positive cases <1%. training data其实已经对negative cases抽样
了,令positive% 在10%-20%之间。

【在 d******e 的大作中提到】
: 怎么个差法?
: precision差还是recall差?
: data是balanced么?

c***z
发帖数: 6348
7
Classical example of overfitting
http://en.wikipedia.org/wiki/Overfitting

【在 p*****y 的大作中提到】
: 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
: regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
: 问题:model 在testing data set中的performance 远远差于training dataset中的
: performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
: 也没有想通,莫非是fraud trends 变得太快?
: 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
: 有多少( 70%? 还是 40%就很不错了?)
: 向版上大牛真诚请教!

p*****y
发帖数: 34
8
谢谢回复,
其实我这里所说的用training dataset建model,其实是用k-fold cross validation了
的,所以我觉得overfitting可能会有,但不是因为没有validating的原因

【在 c***z 的大作中提到】
: Classical example of overfitting
: http://en.wikipedia.org/wiki/Overfitting

c***z
发帖数: 6348
9
Cross validation dataset also participates in the training.
s*******e
发帖数: 1385
10
找几个model里面重要的variable,在training和validation samples上compare一下他
们distribution,以及和target之间的关系!

【在 p*****y 的大作中提到】
: 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
: regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
: 问题:model 在testing data set中的performance 远远差于training dataset中的
: performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
: 也没有想通,莫非是fraud trends 变得太快?
: 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
: 有多少( 70%? 还是 40%就很不错了?)
: 向版上大牛真诚请教!

相关主题
报两个offer-updated-附面试心得 (转载)求教一个模型/预测问题
logistic regression结果释疑,解读新手请教logistic regression
为啥做了segmentation后模型fit更差?做credit risk scorecard的朋友们, 请进来, 有问题求教
进入Statistics版参与讨论
p*******i
发帖数: 1181
11
Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =
p*****y
发帖数: 34
12
这种情况用auc看不出来,因为good order >> fraud order.
btw, 我的Model 的auc也大于0.9

【在 p*******i 的大作中提到】
: Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =
f*******n
发帖数: 2665
13
fraud在数据中是rare event所以要down sample good orders.
还有chargeback要在order date3至4个月后才有较完整的数据,因此选数据时要考虑这
一点

【在 p*****y 的大作中提到】
: 近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
: regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
: 问题:model 在testing data set中的performance 远远差于training dataset中的
: performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
: 也没有想通,莫非是fraud trends 变得太快?
: 不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
: 有多少( 70%? 还是 40%就很不错了?)
: 向版上大牛真诚请教!

d******e
发帖数: 7844
14
rare event看AUC根本没用。
一定要细比precition和recall

【在 p*******i 的大作中提到】
: Model调的不好吧~ 我见过的Model在audit period的AUC要达到0.9是最低要求 = =
s****u
发帖数: 1200
15
纯粹来膜拜0.9. Response model 我基本没见过大于0.7

★ 发自iPhone App: ChineseWeb 7.8

【在 d******e 的大作中提到】
: rare event看AUC根本没用。
: 一定要细比precition和recall

l*********5
发帖数: 13
16
你好,我后天刚好要面试一个Fraud Analysis 的职位,能否告知一下你的模型选取的
变量有哪些?最后的fraud detection rate大概是多少?就当帮同胞一个忙,万分感激
!如果可以,我们可以通过邮件交流:l*********[email protected].
c***z
发帖数: 6348
17
业界比较流行的方法 seems to be using mixed model
k*z
发帖数: 4704
18
有case study么?想学习一下。
l*******s
发帖数: 1258
19
详细讲讲你怎么10-fold cross validation的
按说10-fold时,应该只用test data来test啊,那么你是怎么得到的用training data
来test的结果?

【在 p*****y 的大作中提到】
: 谢谢回复,
: 其实我这里所说的用training dataset建model,其实是用k-fold cross validation了
: 的,所以我觉得overfitting可能会有,但不是因为没有validating的原因

P******X
发帖数: 482
20
ada boost
1 (共1页)
进入Statistics版参与讨论
相关主题
data science 面试求教抓狂!为啥选出来的predictor都这么差
问下如何处理panel data的预测问题?报两个offer-updated-附面试心得 (转载)
training dataset validation dataset and test datasetlogistic regression结果释疑,解读
Principal Components Analysis 中 factor 选择的问题为啥做了segmentation后模型fit更差?
问个关于lasso的问题求教一个模型/预测问题
报面筋求实习合租 (转载)新手请教logistic regression
An interview question做credit risk scorecard的朋友们, 请进来, 有问题求教
问两个个KNN的问题good classification methods for high dimension data
相关话题的讨论汇总
话题: fraud话题: model话题: dataset话题: training话题: testing