请教有没有用多个model来依次判断做classification的例子 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 请教有没有用多个model来依次判断做classification的例子

相关主题
● 请教牛人：上手快的交互图编程	● 有知道machine learning, data mining 的同学吗？
● 面试遇到这问题，求算法	● Old problem, but interesting.
● 有意向做团队骨干的吗？ (转载)	● Any good web content classification tool ?
● 在线求中位数的算法	● "web URL classification", any good algorithms/software/open sources pls ?
● 求助Photoshop里的skew transform的算法	● interviewstreet 明天有个quora专场感兴趣的童鞋们可以参加试试
● boost 1.49.0 有 heap 了	● 运算量较大的web service找哪个VPS？还是自己弄个服务器？
● 给王垠同学的一点看法 (转载)	● 哪个框架最适合快速开发手机app后台的web service？运算量比较
● 学Hadoop还是spark	● matlab 并行运算error？

相关话题的讨论汇总
话题: r1话题: r2话题: model话题: 判断

进入Programming版参与讨论

1

(共1页)

i*******e 发帖数: 242	1 不知道我的思路对不对问题是这样：我的dataset里的response有两个，一个R1是从0-1的分布；另一个R2是切割R1分了4个band：0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分布不太好，“0”很多，其他的是left-skewed分布。最终目标是model R2. 直接model R1， mean error 大概0.2，但是model R2时试了很多classifier 都在0. 6以上。我估计因为prediction的时候如果是0.1，虽然很接近实际值0，但是在R2分类还是算1，导致error变大。我琢磨能不能先用modelA判断是零还是其他，再用一次model判断是1，2，or3. 1. 这种用多次model分类的有好的例子借鉴吗 2. 不知道有没有其他的方法。多谢！
x**********i 发帖数: 658	2 听起来像ensemble 啊，这个应用很多了：不知道我的思路对不对：问题是这样：我的dataset里的response有两个，一个R1是从0-1的分布；另一个R2是切割R1分了4个band：0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1 ] -> 3. R1的分布不太好，“0”很多，其他的是left-skewed分布。最终目标是 model R2.
f*********r 发帖数: 30	3 你一开始predict R1是做regression，用mse来evaluate的话model对0到0.1的penalty 和0.1到0.2的penalty是一样的，但是你最终的目标是非均匀的区间，还包括一个0这样的单独的数，所以先regression再map到R2多半不是最优的。我建议直接对R2做classification，然后你提到很多都是0，那就需要做一些 imbalanced的trick，比如downsampling，或者给weighted cost matrix。但是回到你这个问题本身，我比较好奇这个R1到R2的mapping是人为的吗？还是真的就是真正的目标变量的物理定义。可以分享一下具体是啥课题吗？
m****o 发帖数: 182	4 我建议对目标值做一个boxplot，计算一下均值和中值。如果均值和中值都在比如说0. 01以下或者很大，你的regression model（R1）实际上效果就很差了。 0. 【在 i*******e 的大作中提到】 : 不知道我的思路对不对 : 问题是这样：我的dataset里的response有两个，一个R1是从0-1的分布；另一个R2是切 : 割R1分了4个band：0 ->0; (0-0.3] -> 1; (0.3-0.8] -> 2; (0.8 - 1] -> 3. R1的分 : 布不太好，“0”很多，其他的是left-skewed分布。最终目标是model R2. : 直接model R1， mean error 大概0.2，但是model R2时试了很多classifier 都在0. : 6以上。我估计因为prediction的时候如果是0.1，虽然很接近实际值0，但是在R2分类 : 还是算1，导致error变大。 : 我琢磨能不能先用modelA判断是零还是其他，再用一次model判断是1，2，or3. : 1. 这种用多次model分类的有好的例子借鉴吗 : 2. 不知道有没有其他的方法。
i*******e 发帖数: 242	5 谢谢各位回复我同意对R1做regression可能是绕弯，R1 prediction再cut成R2 做出来error更大（>1 )。我之所以开始想R1也是搞R2时各种classifier的cross validation accuracy 都才0 .5左右，mean error差不多0.6. 我就琢磨能不能借助R1来train model。对于数据分布我也提到是left-skewed的，所以0-0.5的数据很少，但是0很突兀很多。现在的问题是怎么处理好“0”这个response。关于“weighted cost matrix”等 imbalance的方法有用在classification上的例子吗。谢谢了。另外关于R1到R2确实是人为的，没有任何scientific的东西。怎么切也是可能是行规，我估计更多的是给不懂science的比如搞business的给指导意见。

1

(共1页)

进入Programming版参与讨论

相关主题
● matlab 并行运算error？	● 求助Photoshop里的skew transform的算法
● 有没有谁做 text mining 的？	● boost 1.49.0 有 heap 了
● 学习DEEP LEARNING	● 给王垠同学的一点看法 (转载)
● svm/svr还是不错的	● 学Hadoop还是spark
● 请教牛人：上手快的交互图编程	● 有知道machine learning, data mining 的同学吗？
● 面试遇到这问题，求算法	● Old problem, but interesting.
● 有意向做团队骨干的吗？ (转载)	● Any good web content classification tool ?
● 在线求中位数的算法	● "web URL classification", any good algorithms/software/open sources pls ?

相关话题的讨论汇总
话题: r1话题: r2话题: model话题: 判断

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)