f*******6 发帖数: 56 | 1 有一个组的整个建模过程如下:
1)组员4个,用同一个training dataset,建立1~2个classification model(logistic
regression,SVM,NN);
2)总共8个model,最后用vote的方法决定每个record的class. 超过半数以上是yes的就
判断是yes, 否则为no.
我的疑问是:当新数据进来的时候,这个vote的结果对预测这个数据的class没有任何
参考意义。
不能理解这样的做法,不知道工业界里建模时有这样运用的吗? | a*****s 发帖数: 838 | 2 新数据是指test dataset吗?如果是的话,那training set就不可能完全预测新数据的
class啊,只能是参考test dataset的参数对比做估计而已。 | f*******6 发帖数: 56 | 3 是我自己想岔了。
是这8个模块已经建立好了,等新的数据到了后,就作为TESTDATA直接用这些模块算出
预测结果,然后用VOTE的方式选出占多数的那一个CLASS。 | s*********i 发帖数: 218 | 4 觉得这个种就是广义的ensemble method,目的在于叠加几个相对独立的模型来减小
prediction的variance. Skytree和Azure这种软件很多带这个选项。
实际应用的话一个做好一个模型已经很麻烦了,谁没事认真做8个。。。 |
|