c*******i 发帖数: 160 | 1 我看别人的paper或是别的说明,都建议scale输入svm的数据到0-1。 但是我不清楚怎
样scale,以及这些方法对svm结果的影响。
假设: 一个人的年龄是输入数据,我找到数据中最大的年龄max和最小年龄min,然后,
new age= (old age-min)/(max-min),最后到[0,1]之间了。
但是,这样scale似乎是有问题的,因为60 虽然是20 的三倍,但是对结果的影响显然
不是3倍的关系。 假如我用另一个方法:我按照一定的规则,把年龄分段,假如5段的
话,这样就用5个取值 0或1的variable表示了这个连续变量年龄,这样会不会更好些?
类似的问题很多,比如我知道一个排名,从第一名到100名,显然第一名的影响不是第
100名的100倍,也许是10000倍。
有没有专门介绍常用scale方法的资料。
非常感谢。 | N******n 发帖数: 3003 | 2
后,
scale的目的是让所有的variable对最后的Model的影响在一个标尺内。
【在 c*******i 的大作中提到】 : 我看别人的paper或是别的说明,都建议scale输入svm的数据到0-1。 但是我不清楚怎 : 样scale,以及这些方法对svm结果的影响。 : 假设: 一个人的年龄是输入数据,我找到数据中最大的年龄max和最小年龄min,然后, : new age= (old age-min)/(max-min),最后到[0,1]之间了。 : 但是,这样scale似乎是有问题的,因为60 虽然是20 的三倍,但是对结果的影响显然 : 不是3倍的关系。 假如我用另一个方法:我按照一定的规则,把年龄分段,假如5段的 : 话,这样就用5个取值 0或1的variable表示了这个连续变量年龄,这样会不会更好些? : 类似的问题很多,比如我知道一个排名,从第一名到100名,显然第一名的影响不是第 : 100名的100倍,也许是10000倍。 : 有没有专门介绍常用scale方法的资料。
|
|