i*******e 发帖数: 242 | 1 不知道我的思路对不对
问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是切
割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分
布不太好,“0”很多,其他的是left-skewed分布。最终目标是model R2.
直接model R1, mean error 大概0.2, 但是model R2时 试了很多classifier 都在0.
6以上。我估计因为prediction的时候如果是0.1,虽然很接近实际值0,但是在R2分类
还是算1,导致error变大。
我琢磨能不能先用modelA判断是零还是其他,再用一次model判断是1,2,or3.
1. 这种用多次model分类的有好的例子借鉴吗
2. 不知道有没有其他的方法。
多谢! |
x**********i 发帖数: 658 | 2 听起来像ensemble 啊,这个应用很多了
:不知道我的思路对不对
:问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是
切割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1
] -> 3. R1的分布不太好,“0”很多,其他的是left-skewed分布。最终目标是
model R2. |
f*********r 发帖数: 30 | 3 你一开始predict R1是做regression,用mse来evaluate的话model对0到0.1的penalty
和0.1到0.2的penalty是一样的,但是你最终的目标是非均匀的区间,还包括一个0这样
的单独的数,所以先regression再map到R2多半不是最优的。
我建议直接对R2做classification,然后你提到很多都是0,那就需要做一些
imbalanced的trick,比如downsampling,或者给weighted cost matrix。
但是回到你这个问题本身,我比较好奇这个R1到R2的mapping是人为的吗?还是真的就
是真正的目标变量的物理定义。可以分享一下具体是啥课题吗? |
m****o 发帖数: 182 | 4 我建议对目标值做一个boxplot,计算一下均值和中值。如果均值和中值都在比如说0.
01以下或者很大,你的regression model(R1)实际上效果就很差了。
0.
【在 i*******e 的大作中提到】 : 不知道我的思路对不对 : 问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是切 : 割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分 : 布不太好,“0”很多,其他的是left-skewed分布。最终目标是model R2. : 直接model R1, mean error 大概0.2, 但是model R2时 试了很多classifier 都在0. : 6以上。我估计因为prediction的时候如果是0.1,虽然很接近实际值0,但是在R2分类 : 还是算1,导致error变大。 : 我琢磨能不能先用modelA判断是零还是其他,再用一次model判断是1,2,or3. : 1. 这种用多次model分类的有好的例子借鉴吗 : 2. 不知道有没有其他的方法。
|
i*******e 发帖数: 242 | 5 谢谢各位回复
我同意对R1做regression可能是绕弯,R1 prediction再cut成R2 做出来error更大(>1
)。我之所以开始想R1也是搞R2时各种classifier的cross validation accuracy 都才0
.5左右,mean error差不多0.6. 我就琢磨能不能借助R1来train model。
对于数据分布我也提到是left-skewed的,所以0-0.5的数据很少,但是0很突兀很多。
现在的问题是怎么处理好“0”这个response。关于“weighted cost matrix”等
imbalance的方法有用在classification上的例子吗。谢谢了。
另外关于R1到R2确实是人为的,没有任何scientific的东西。怎么切也是可能是行规,
我估计更多的是给不懂science的比如搞business的给指导意见。 |