由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - random forest里面为什么是"可放回"的resample呢?
相关主题
[合集] 有个bootstrap的问题想找人讨论下。Re: 讨论讨论Bootstrap和resampling吧
请教一个bootstrapping的问题。bootstrap真的能让让我们逼近“真理”吗
有个bootstrap的问题想找人讨论下。请教一个bootstrap的问题(包子)
请大牛推荐cross validation 方面的好Book/Paper请教大神们关于bootstrap
Faster Random Sampling with Replacementbagging 用于logistic regression because of unbalance data
求用R做bootstrap的example script请教:如何做regression model的validation?
关于Bootstrap法需要强调的是如何做sampling
[合集] 说两句关于bootstrap的看法说两句关于bootstrap的看法
相关话题的讨论汇总
话题: 放回话题: resample话题: sample话题: forest话题: random
进入Statistics版参与讨论
1 (共1页)
R*******c
发帖数: 249
1
多谢解答!
h***i
发帖数: 3844
2
"可放回"的resample 的目的是啥?

【在 R*******c 的大作中提到】
: 多谢解答!
B******5
发帖数: 4676
3
bagging不是么?
给定一个distribution的1000个sample,
你怎么generate这个distribution的sample size是5000的resample呢?
放回了可就不够了。。。
R*******c
发帖数: 249
4
谢谢答复,
这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答
跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他
就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然
后我就不知道怎么答了。。。

【在 B******5 的大作中提到】
: bagging不是么?
: 给定一个distribution的1000个sample,
: 你怎么generate这个distribution的sample size是5000的resample呢?
: 放回了可就不够了。。。

R*******c
发帖数: 249
5
不清楚可放回和放回到底是有什么区别。。。希望能解答一下啊
多谢啊~

【在 h***i 的大作中提到】
: "可放回"的resample 的目的是啥?
B******5
发帖数: 4676
6
感觉可以,理论上不知道,
面试真难。。。

【在 R*******c 的大作中提到】
: 谢谢答复,
: 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答
: 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他
: 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然
: 后我就不知道怎么答了。。。

X******2
发帖数: 5859
7
什么鸟地方的面试题?
RF当然可以用without replacement, 不过这时需要
用subsampling。甚至在有时候用subsampling性能
会更优越,据说能够消除某些Bias。谁对这个话题
感兴趣可以去看看斯坦福的Romano或是伯克利大学
的Bickel在用subsampling替代sample with replacement
修改bootstrap方面的工作,目的显然是克服原始
的botstrap某方面的不足。

【在 R*******c 的大作中提到】
: 谢谢答复,
: 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答
: 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他
: 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然
: 后我就不知道怎么答了。。。

R*******c
发帖数: 249
8
牛叉,我去看看,学习一下
多谢回复~

【在 X******2 的大作中提到】
: 什么鸟地方的面试题?
: RF当然可以用without replacement, 不过这时需要
: 用subsampling。甚至在有时候用subsampling性能
: 会更优越,据说能够消除某些Bias。谁对这个话题
: 感兴趣可以去看看斯坦福的Romano或是伯克利大学
: 的Bickel在用subsampling替代sample with replacement
: 修改bootstrap方面的工作,目的显然是克服原始
: 的botstrap某方面的不足。

Ag
发帖数: 481
9
我怎么没看懂你的问题
你是不是 with 和 w/o 写反了?
感觉如果要generate 的数量足够小于原来的数量,是可以 w/o replacement 的
如果相近应该不行。这样的话,the correlation among all trees are too high, so
the variance is large.

【在 R*******c 的大作中提到】
: 谢谢答复,
: 这是面试的一道题,先问random forest为什么不是with replacement,然后我的回答
: 跟你一样,就是说如果without replacement,那么生成的sample那就跟原来一样了,他
: 就问如果generate的数量小于原有数量的话,可不可以resample with replacement?然
: 后我就不知道怎么答了。。。

R*******c
发帖数: 249
10
en,是写反了,默认的random forest里是可放回的,问题是能不能不放回。你说的是对
的,但是如果sample size远小于原来的sample,不知道行不行或者好不好

so

【在 Ag 的大作中提到】
: 我怎么没看懂你的问题
: 你是不是 with 和 w/o 写反了?
: 感觉如果要generate 的数量足够小于原来的数量,是可以 w/o replacement 的
: 如果相近应该不行。这样的话,the correlation among all trees are too high, so
: the variance is large.

相关主题
求用R做bootstrap的example scriptRe: 讨论讨论Bootstrap和resampling吧
关于Bootstrap法需要强调的是bootstrap真的能让让我们逼近“真理”吗
[合集] 说两句关于bootstrap的看法请教一个bootstrap的问题(包子)
进入Statistics版参与讨论
Ag
发帖数: 481
11
如果远小于,应该是可以的
这就相当于你从一个很大的population 里面,draw a sample,
There is a trade off for this.
If your subsample is too large, then every tree has enough "power" (I mean n
ot the power in hypothesis test) to do its own job for prediction, but the c
ons is high variance among trees;
if your subsample is small, the prediction bias by a single tree will be lar
ge, but the prediction variance can be low.
There is always such kind of trade off in this kind of problems.

【在 R*******c 的大作中提到】
: en,是写反了,默认的random forest里是可放回的,问题是能不能不放回。你说的是对
: 的,但是如果sample size远小于原来的sample,不知道行不行或者好不好
:
: so

R*******c
发帖数: 249
12
嗯,你说的没错,不过面试官好像更侧重问的是: 如果从原先N个sample里抽取n(n< ),n是给定的,那么应该是放回好还是不放回好?
我当时觉得既然大家做random forest都是放回的,我就说应该是放回的好,原因我就
瞎猜可能这样的话,tree与tree之间的correlation比较小,不过我也说不清楚为什么
。。。

n
c
lar

【在 Ag 的大作中提到】
: 如果远小于,应该是可以的
: 这就相当于你从一个很大的population 里面,draw a sample,
: There is a trade off for this.
: If your subsample is too large, then every tree has enough "power" (I mean n
: ot the power in hypothesis test) to do its own job for prediction, but the c
: ons is high variance among trees;
: if your subsample is small, the prediction bias by a single tree will be lar
: ge, but the prediction variance can be low.
: There is always such kind of trade off in this kind of problems.

Ag
发帖数: 481
13
XOXO2012,
你了解这方面的研究吗?能不能直观地解释一下为什么subsampling 能消除bias
不太能想明白。。。

【在 X******2 的大作中提到】
: 什么鸟地方的面试题?
: RF当然可以用without replacement, 不过这时需要
: 用subsampling。甚至在有时候用subsampling性能
: 会更优越,据说能够消除某些Bias。谁对这个话题
: 感兴趣可以去看看斯坦福的Romano或是伯克利大学
: 的Bickel在用subsampling替代sample with replacement
: 修改bootstrap方面的工作,目的显然是克服原始
: 的botstrap某方面的不足。

Ag
发帖数: 481
14
这样的话是不是不放回更好?correlation 更小?只要抽不完


【在 R*******c 的大作中提到】
: 嗯,你说的没错,不过面试官好像更侧重问的是: 如果从原先N个sample里抽取n(n<: ),n是给定的,那么应该是放回好还是不放回好?
: 我当时觉得既然大家做random forest都是放回的,我就说应该是放回的好,原因我就
: 瞎猜可能这样的话,tree与tree之间的correlation比较小,不过我也说不清楚为什么
: 。。。
:
: n
: c
: lar

t*******t
发帖数: 633
15
bootstrap本来就是可放回的。
1 (共1页)
进入Statistics版参与讨论
相关主题
说两句关于bootstrap的看法Faster Random Sampling with Replacement
jackknife instead of bootstrap?求用R做bootstrap的example script
统计面试,同胞何苦为难同胞。。。关于Bootstrap法需要强调的是
Help on understanding how to Creating a Random Sample without Replacement[合集] 说两句关于bootstrap的看法
[合集] 有个bootstrap的问题想找人讨论下。Re: 讨论讨论Bootstrap和resampling吧
请教一个bootstrapping的问题。bootstrap真的能让让我们逼近“真理”吗
有个bootstrap的问题想找人讨论下。请教一个bootstrap的问题(包子)
请大牛推荐cross validation 方面的好Book/Paper请教大神们关于bootstrap
相关话题的讨论汇总
话题: 放回话题: resample话题: sample话题: forest话题: random