R*******c 发帖数: 249 | |
h***i 发帖数: 3844 | 2 "可放回"的resample 的目的是啥?
【在 R*******c 的大作中提到】 : 多谢解答!
|
B******5 发帖数: 4676 | 3 bagging不是么?
给定一个distribution的1000个sample,
你怎么generate这个distribution的sample size是5000的resample呢?
放回了可就不够了。。。 |
R*******c 发帖数: 249 | 4 谢谢答复,
这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答
跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他
就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然
后我就不知道怎么答了。。。
【在 B******5 的大作中提到】 : bagging不是么? : 给定一个distribution的1000个sample, : 你怎么generate这个distribution的sample size是5000的resample呢? : 放回了可就不够了。。。
|
R*******c 发帖数: 249 | 5 不清楚可放回和放回到底是有什么区别。。。希望能解答一下啊
多谢啊~
【在 h***i 的大作中提到】 : "可放回"的resample 的目的是啥?
|
B******5 发帖数: 4676 | 6 感觉可以,理论上不知道,
面试真难。。。
【在 R*******c 的大作中提到】 : 谢谢答复, : 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答 : 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他 : 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然 : 后我就不知道怎么答了。。。
|
X******2 发帖数: 5859 | 7 什么鸟地方的面试题?
RF当然可以用without replacement, 不过这时需要
用subsampling。甚至在有时候用subsampling性能
会更优越,据说能够消除某些Bias。谁对这个话题
感兴趣可以去看看斯坦福的Romano或是伯克利大学
的Bickel在用subsampling替代sample with replacement
修改bootstrap方面的工作,目的显然是克服原始
的botstrap某方面的不足。
【在 R*******c 的大作中提到】 : 谢谢答复, : 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答 : 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他 : 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然 : 后我就不知道怎么答了。。。
|
R*******c 发帖数: 249 | 8 牛叉,我去看看,学习一下
多谢回复~
【在 X******2 的大作中提到】 : 什么鸟地方的面试题? : RF当然可以用without replacement, 不过这时需要 : 用subsampling。甚至在有时候用subsampling性能 : 会更优越,据说能够消除某些Bias。谁对这个话题 : 感兴趣可以去看看斯坦福的Romano或是伯克利大学 : 的Bickel在用subsampling替代sample with replacement : 修改bootstrap方面的工作,目的显然是克服原始 : 的botstrap某方面的不足。
|
Ag 发帖数: 481 | 9 我怎么没看懂你的问题
你是不是 with 和 w/o 写反了?
感觉如果要generate 的数量足够小于原来的数量,是可以 w/o replacement 的
如果相近应该不行。这样的话,the correlation among all trees are too high, so
the variance is large.
【在 R*******c 的大作中提到】 : 谢谢答复, : 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答 : 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他 : 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然 : 后我就不知道怎么答了。。。
|
R*******c 发帖数: 249 | 10 en,是写反了,默认的random forest里是可放回的,问题是能不能不放回。你说的是对
的,但是如果sample size远小于原来的sample,不知道行不行或者好不好
so
【在 Ag 的大作中提到】 : 我怎么没看懂你的问题 : 你是不是 with 和 w/o 写反了? : 感觉如果要generate 的数量足够小于原来的数量,是可以 w/o replacement 的 : 如果相近应该不行。这样的话,the correlation among all trees are too high, so : the variance is large.
|
|
|
Ag 发帖数: 481 | 11 如果远小于,应该是可以的
这就相当于你从一个很大的population 里面,draw a sample,
There is a trade off for this.
If your subsample is too large, then every tree has enough "power" (I mean n
ot the power in hypothesis test) to do its own job for prediction, but the c
ons is high variance among trees;
if your subsample is small, the prediction bias by a single tree will be lar
ge, but the prediction variance can be low.
There is always such kind of trade off in this kind of problems.
【在 R*******c 的大作中提到】 : en,是写反了,默认的random forest里是可放回的,问题是能不能不放回。你说的是对 : 的,但是如果sample size远小于原来的sample,不知道行不行或者好不好 : : so
|
R*******c 发帖数: 249 | 12 嗯,你说的没错,不过面试官好像更侧重问的是: 如果从原先N个sample里抽取n(n<
),n是给定的,那么应该是放回好还是不放回好?
我当时觉得既然大家做random forest都是放回的,我就说应该是放回的好,原因我就
瞎猜可能这样的话,tree与tree之间的correlation比较小,不过我也说不清楚为什么
。。。
n
c
lar
【在 Ag 的大作中提到】 : 如果远小于,应该是可以的 : 这就相当于你从一个很大的population 里面,draw a sample, : There is a trade off for this. : If your subsample is too large, then every tree has enough "power" (I mean n : ot the power in hypothesis test) to do its own job for prediction, but the c : ons is high variance among trees; : if your subsample is small, the prediction bias by a single tree will be lar : ge, but the prediction variance can be low. : There is always such kind of trade off in this kind of problems.
|
Ag 发帖数: 481 | 13 XOXO2012,
你了解这方面的研究吗?能不能直观地解释一下为什么subsampling 能消除bias
不太能想明白。。。
【在 X******2 的大作中提到】 : 什么鸟地方的面试题? : RF当然可以用without replacement, 不过这时需要 : 用subsampling。甚至在有时候用subsampling性能 : 会更优越,据说能够消除某些Bias。谁对这个话题 : 感兴趣可以去看看斯坦福的Romano或是伯克利大学 : 的Bickel在用subsampling替代sample with replacement : 修改bootstrap方面的工作,目的显然是克服原始 : 的botstrap某方面的不足。
|
Ag 发帖数: 481 | 14 这样的话是不是不放回更好?correlation 更小?只要抽不完
【在 R*******c 的大作中提到】 : 嗯,你说的没错,不过面试官好像更侧重问的是: 如果从原先N个sample里抽取n(n<: ),n是给定的,那么应该是放回好还是不放回好? : 我当时觉得既然大家做random forest都是放回的,我就说应该是放回的好,原因我就 : 瞎猜可能这样的话,tree与tree之间的correlation比较小,不过我也说不清楚为什么 : 。。。 : : n : c : lar
|
t*******t 发帖数: 633 | |