j*******2 发帖数: 309 | 1 用于classification上面,对于什么样的data比较适合? 谢谢 |
g********r 发帖数: 8017 | 2 非线性,空间划分复杂,很多predictor跟outcome不相关的.
【在 j*******2 的大作中提到】 : 用于classification上面,对于什么样的data比较适合? 谢谢
|
d******e 发帖数: 7844 | 3 这答得哪而跟哪儿啊?
SVM最大的优点是Minimize Maximum Margin的思想,让generalization能力极大的提高。
你说的很多predictor跟outcome不相关,准确的说应该是Margin最终只决定于其边缘和
内部的样本,这些样本被称为support vector,这种sample sparsity的结构让结果更
稳定。但这只是L2 SVM最大化geometric margin的结果。如果使用L1 SVM最大化L_{\
infty} margin,那么,得到的就是support feature了,也就是feature的sparsity.
我喜欢的另一个优点是:虽然使用surrogate loss,但是却是Fisher consistent的,
而且是convex的,有很多非常成熟的高速解法,比如cutting-plane,优化起来快速便
捷。
至于什么非线性,那是kernel的功劳,Logistic Regression一样也可以有非线性的版
本。
【在 g********r 的大作中提到】 : 非线性,空间划分复杂,很多predictor跟outcome不相关的.
|
g********r 发帖数: 8017 | 4 大牛这么清楚,怎么不早出来回答?我只是从应用的角度答他问的什么data合适.
高。
【在 d******e 的大作中提到】 : 这答得哪而跟哪儿啊? : SVM最大的优点是Minimize Maximum Margin的思想,让generalization能力极大的提高。 : 你说的很多predictor跟outcome不相关,准确的说应该是Margin最终只决定于其边缘和 : 内部的样本,这些样本被称为support vector,这种sample sparsity的结构让结果更 : 稳定。但这只是L2 SVM最大化geometric margin的结果。如果使用L1 SVM最大化L_{\ : infty} margin,那么,得到的就是support feature了,也就是feature的sparsity. : 我喜欢的另一个优点是:虽然使用surrogate loss,但是却是Fisher consistent的, : 而且是convex的,有很多非常成熟的高速解法,比如cutting-plane,优化起来快速便 : 捷。 : 至于什么非线性,那是kernel的功劳,Logistic Regression一样也可以有非线性的版
|
A*******s 发帖数: 3942 | 5 quick question: would large sample size weaken the SVM's edge on
generalization, compared to other models?
高。
【在 d******e 的大作中提到】 : 这答得哪而跟哪儿啊? : SVM最大的优点是Minimize Maximum Margin的思想,让generalization能力极大的提高。 : 你说的很多predictor跟outcome不相关,准确的说应该是Margin最终只决定于其边缘和 : 内部的样本,这些样本被称为support vector,这种sample sparsity的结构让结果更 : 稳定。但这只是L2 SVM最大化geometric margin的结果。如果使用L1 SVM最大化L_{\ : infty} margin,那么,得到的就是support feature了,也就是feature的sparsity. : 我喜欢的另一个优点是:虽然使用surrogate loss,但是却是Fisher consistent的, : 而且是convex的,有很多非常成熟的高速解法,比如cutting-plane,优化起来快速便 : 捷。 : 至于什么非线性,那是kernel的功劳,Logistic Regression一样也可以有非线性的版
|
d******e 发帖数: 7844 | 6 这个要取决于你的large sample size如何定义了。
对于高维情况,一般来说,SVM仍然在泛化能力方面很有优势。
【在 A*******s 的大作中提到】 : quick question: would large sample size weaken the SVM's edge on : generalization, compared to other models? : : 高。
|
j*******2 发帖数: 309 | 7 谢大牛回答。什么是L1 svm 和L2呢?就我的理解,kernel函数把低维的feature映射到
高维,这样
的话,最后得到的hyperplane维数还是很高的,为什么是sparse feature呢? 另外,
svm是不是
用在small sample上效果很好?
还有,svm最后的结果只和support vector有关,这是不是算法稳定的原因呢?
高。
【在 d******e 的大作中提到】 : 这答得哪而跟哪儿啊? : SVM最大的优点是Minimize Maximum Margin的思想,让generalization能力极大的提高。 : 你说的很多predictor跟outcome不相关,准确的说应该是Margin最终只决定于其边缘和 : 内部的样本,这些样本被称为support vector,这种sample sparsity的结构让结果更 : 稳定。但这只是L2 SVM最大化geometric margin的结果。如果使用L1 SVM最大化L_{\ : infty} margin,那么,得到的就是support feature了,也就是feature的sparsity. : 我喜欢的另一个优点是:虽然使用surrogate loss,但是却是Fisher consistent的, : 而且是convex的,有很多非常成熟的高速解法,比如cutting-plane,优化起来快速便 : 捷。 : 至于什么非线性,那是kernel的功劳,Logistic Regression一样也可以有非线性的版
|
d******e 发帖数: 7844 | 8 L1SVM的文章有很多。
http://www.stat.umn.edu/~xshen/paper/icmla.pdf
第3页的图应该能让你对L1 norm SVM和L2 norm SVM的区别有所了解。
L1 norm SVM是没有直接的kernel版本的,因为L1 norm的penalty是没办法在RKHS里甚
至都不容易解释,更不能简单实现的。
SVM在Large Sample Size上性能一样好啊,只不过他在Small Sample Size上的优势更
明显。如果sample size足够大KNN也一样很好,不过这种比较也没什么意义。
你如果真想了解SVM,随便找本Machine Learning的书,比如PRML或者ESL。比在BBS上
问有效多了
【在 j*******2 的大作中提到】 : 谢大牛回答。什么是L1 svm 和L2呢?就我的理解,kernel函数把低维的feature映射到 : 高维,这样 : 的话,最后得到的hyperplane维数还是很高的,为什么是sparse feature呢? 另外, : svm是不是 : 用在small sample上效果很好? : 还有,svm最后的结果只和support vector有关,这是不是算法稳定的原因呢? : : 高。
|
t**u 发帖数: 1572 | 9 blackbox
【在 j*******2 的大作中提到】 : 用于classification上面,对于什么样的data比较适合? 谢谢
|
j*******2 发帖数: 309 | 10 非常感谢博士大牛。看了一点svm的资料,了解不是很深,希望先弄清它的特点。再问
一下,svm最后的
结果只和support vector有关,这是不是算法稳定的原因呢?
【在 d******e 的大作中提到】 : L1SVM的文章有很多。 : http://www.stat.umn.edu/~xshen/paper/icmla.pdf : 第3页的图应该能让你对L1 norm SVM和L2 norm SVM的区别有所了解。 : L1 norm SVM是没有直接的kernel版本的,因为L1 norm的penalty是没办法在RKHS里甚 : 至都不容易解释,更不能简单实现的。 : SVM在Large Sample Size上性能一样好啊,只不过他在Small Sample Size上的优势更 : 明显。如果sample size足够大KNN也一样很好,不过这种比较也没什么意义。 : 你如果真想了解SVM,随便找本Machine Learning的书,比如PRML或者ESL。比在BBS上 : 问有效多了
|
d******e 发帖数: 7844 | 11 嗯。这就是我说的Sparsity。
但你说的这个稳定是指什么稳定?
【在 j*******2 的大作中提到】 : 非常感谢博士大牛。看了一点svm的资料,了解不是很深,希望先弄清它的特点。再问 : 一下,svm最后的 : 结果只和support vector有关,这是不是算法稳定的原因呢?
|
j*******2 发帖数: 309 | 12 我的想法是,因为它只取决于support vector,所以不会overfit,所以prediction
power比较
高,不知道对不对?
【在 d******e 的大作中提到】 : 嗯。这就是我说的Sparsity。 : 但你说的这个稳定是指什么稳定?
|
d******e 发帖数: 7844 | 13 你可以这么说,他的Loss性质肯定要比L2 loss这种东西稳定,但和Logitic
regression差不太多。比LR应该略好一些
其实SVM的loss对于outlier也比较敏感。所以还有robust版本的Psi learning和
Tuncated Hinge Loss SVM
【在 j*******2 的大作中提到】 : 我的想法是,因为它只取决于support vector,所以不会overfit,所以prediction : power比较 : 高,不知道对不对?
|