由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教有没有用多个model来依次判断做classification的例子
相关主题
请教牛人:上手快的交互图编程有知道machine learning, data mining 的同学吗?
面试遇到这问题,求算法Old problem, but interesting.
有意向做团队骨干的吗? (转载)Any good web content classification tool ?
在线求中位数的算法"web URL classification", any good algorithms/software/open sources pls ?
求助Photoshop里的skew transform的算法interviewstreet 明天有个quora专场 感兴趣的童鞋们可以参加试试
boost 1.49.0 有 heap 了运算量较大的web service找哪个VPS?还是自己弄个服务器?
给王垠同学的一点看法 (转载)哪个框架最适合快速开发手机app后台的web service?运算量比较
学Hadoop还是sparkmatlab 并行运算error?
相关话题的讨论汇总
话题: r1话题: r2话题: model话题: 判断
进入Programming版参与讨论
1 (共1页)
i*******e
发帖数: 242
1
不知道我的思路对不对
问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是切
割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分
布不太好,“0”很多,其他的是left-skewed分布。最终目标是model R2.
直接model R1, mean error 大概0.2, 但是model R2时 试了很多classifier 都在0.
6以上。我估计因为prediction的时候如果是0.1,虽然很接近实际值0,但是在R2分类
还是算1,导致error变大。
我琢磨能不能先用modelA判断是零还是其他,再用一次model判断是1,2,or3.
1. 这种用多次model分类的有好的例子借鉴吗
2. 不知道有没有其他的方法。
多谢!
x**********i
发帖数: 658
2
听起来像ensemble 啊,这个应用很多了

:不知道我的思路对不对
:问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是
切割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1
] -> 3. R1的分布不太好,“0”很多,其他的是left-skewed分布。最终目标是
model R2.
f*********r
发帖数: 30
3
你一开始predict R1是做regression,用mse来evaluate的话model对0到0.1的penalty
和0.1到0.2的penalty是一样的,但是你最终的目标是非均匀的区间,还包括一个0这样
的单独的数,所以先regression再map到R2多半不是最优的。
我建议直接对R2做classification,然后你提到很多都是0,那就需要做一些
imbalanced的trick,比如downsampling,或者给weighted cost matrix。
但是回到你这个问题本身,我比较好奇这个R1到R2的mapping是人为的吗?还是真的就
是真正的目标变量的物理定义。可以分享一下具体是啥课题吗?
m****o
发帖数: 182
4
我建议对目标值做一个boxplot,计算一下均值和中值。如果均值和中值都在比如说0.
01以下或者很大,你的regression model(R1)实际上效果就很差了。

0.

【在 i*******e 的大作中提到】
: 不知道我的思路对不对
: 问题是这样:我的dataset里的response有两个,一个R1是从0-1的分布;另一个R2是切
: 割R1分了4个band:0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分
: 布不太好,“0”很多,其他的是left-skewed分布。最终目标是model R2.
: 直接model R1, mean error 大概0.2, 但是model R2时 试了很多classifier 都在0.
: 6以上。我估计因为prediction的时候如果是0.1,虽然很接近实际值0,但是在R2分类
: 还是算1,导致error变大。
: 我琢磨能不能先用modelA判断是零还是其他,再用一次model判断是1,2,or3.
: 1. 这种用多次model分类的有好的例子借鉴吗
: 2. 不知道有没有其他的方法。

i*******e
发帖数: 242
5
谢谢各位回复
我同意对R1做regression可能是绕弯,R1 prediction再cut成R2 做出来error更大(>1
)。我之所以开始想R1也是搞R2时各种classifier的cross validation accuracy 都才0
.5左右,mean error差不多0.6. 我就琢磨能不能借助R1来train model。
对于数据分布我也提到是left-skewed的,所以0-0.5的数据很少,但是0很突兀很多。
现在的问题是怎么处理好“0”这个response。关于“weighted cost matrix”等
imbalance的方法有用在classification上的例子吗。谢谢了。
另外关于R1到R2确实是人为的,没有任何scientific的东西。怎么切也是可能是行规,
我估计更多的是给不懂science的比如搞business的给指导意见。
1 (共1页)
进入Programming版参与讨论
相关主题
matlab 并行运算error?求助Photoshop里的skew transform的算法
有没有谁做 text mining 的?boost 1.49.0 有 heap 了
学习DEEP LEARNING给王垠同学的一点看法 (转载)
svm/svr还是不错的学Hadoop还是spark
请教牛人:上手快的交互图编程有知道machine learning, data mining 的同学吗?
面试遇到这问题,求算法Old problem, but interesting.
有意向做团队骨干的吗? (转载)Any good web content classification tool ?
在线求中位数的算法"web URL classification", any good algorithms/software/open sources pls ?
相关话题的讨论汇总
话题: r1话题: r2话题: model话题: 判断