t****r 发帖数: 702 | 1 前面有人问bootstrap能不能更逼近真理。我不是这方面的专家,但是发表一点自己的简
介,希望和大家交流一下吧。
总体而言, 我觉得使用bootstrap不能说是逼近真理。但是有的时候,确实比不做boot
strap比更好,或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的
原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的,所以用bootstrap
的效果不会比使用原来的样本好多少。这一点我也同意。
但是从另外一个角度来说,一个样本里面包含的信息是很丰富的,我们是否已经完全利
用了现有样本里面的信息呢?最简单的例子来说,一个样本,很多时候我们用就用samp
le mean来summarize样本信息,但是使用sample mean的时候又忽视了多少样本中原来的
信息呢? 比如各种quantile的信息之类。 类似的,换一个角度来说,bootstrap是在重
复地寻找原来样本中所含有不同的信息。我觉得这是为什么bagging和random forest的
方法之所以work的原因。事实上,bagging和random forest使用bootstrap之后效果的增
加也是很明显的。
另外,很多人觉得bootstrap没什么用事因为觉得bootstrap并不能产生新的信息。其实
也不尽然。很多统计工具,其实它们本身就含有很多随机性,比如 tree classifier。
一堆数据当中,可能换掉其中的一个样本点,可能最后的分类结果就会差很多。但是这
种统计工具的刻画又不像t-test之类的那么简单,相当于一个比较复杂的黑箱子系统。
你不断地用不同的数据去试,对于黑箱子来说,样本的组成不同,就是新的信息。 是哦
你个重复抽样然后取平均,是可以用来调整这种classifer的variation的。(事实上,
每个bootstrap样本会有1/3左右在原样本里的样本点被排除在外,相当于一种比较大的
扰动了)。
另一个使用bootstrap的原因就比较无奈了,因为那是only way接近“真理”吧。像我们
平常所用的t-statistic 他是有closed formed的分布的,但是统计中很多其他的统计
量是没有这么好的分布性质的,所以只能用bootstrap的方法来进行模拟。从没有办法
看到分布到至少有个模糊的概念我觉得在某种程度上也是一种更加接近真理? |
C******a 发帖数: 49 | |
r****t 发帖数: 10904 | 3 bootstrap 忘得差不多了,不过 t-statistic 是 normal 分布的么?
的简
boot
bootstrap
samp
来的
【在 t****r 的大作中提到】 : 前面有人问bootstrap能不能更逼近真理。我不是这方面的专家,但是发表一点自己的简 : 介,希望和大家交流一下吧。 : 总体而言, 我觉得使用bootstrap不能说是逼近真理。但是有的时候,确实比不做boot : strap比更好,或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的 : 原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的,所以用bootstrap : 的效果不会比使用原来的样本好多少。这一点我也同意。 : 但是从另外一个角度来说,一个样本里面包含的信息是很丰富的,我们是否已经完全利 : 用了现有样本里面的信息呢?最简单的例子来说,一个样本,很多时候我们用就用samp : le mean来summarize样本信息,但是使用sample mean的时候又忽视了多少样本中原来的 : 信息呢? 比如各种quantile的信息之类。 类似的,换一个角度来说,bootstrap是在重
|
q**j 发帖数: 10612 | 4 这玩意难道就这样说说就有道理了?不是有人证明了sample mean是population mean的
suffiicent statistic了么?sample vairance是population variance的sufficient s
tatitic 了么?这样还boot什么?
难道distribution不是normal的情况下boot就有用了?这个是否应该证明一下,什么情
况下boot比较有用。
的简
boot
bootstrap
samp
来的
【在 t****r 的大作中提到】 : 前面有人问bootstrap能不能更逼近真理。我不是这方面的专家,但是发表一点自己的简 : 介,希望和大家交流一下吧。 : 总体而言, 我觉得使用bootstrap不能说是逼近真理。但是有的时候,确实比不做boot : strap比更好,或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的 : 原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的,所以用bootstrap : 的效果不会比使用原来的样本好多少。这一点我也同意。 : 但是从另外一个角度来说,一个样本里面包含的信息是很丰富的,我们是否已经完全利 : 用了现有样本里面的信息呢?最简单的例子来说,一个样本,很多时候我们用就用samp : le mean来summarize样本信息,但是使用sample mean的时候又忽视了多少样本中原来的 : 信息呢? 比如各种quantile的信息之类。 类似的,换一个角度来说,bootstrap是在重
|
a******n 发帖数: 11246 | 5 t-stat当然是t-dist的啦 :D
前提是samples are from a normal dist.
处的
全利
在重
【在 r****t 的大作中提到】 : bootstrap 忘得差不多了,不过 t-statistic 是 normal 分布的么? : : 的简 : boot : bootstrap : samp : 来的
|
t****r 发帖数: 702 | 6 说错了,应该是t分布的。写的时候脑子犯晕。。。
【在 r****t 的大作中提到】 : bootstrap 忘得差不多了,不过 t-statistic 是 normal 分布的么? : : 的简 : boot : bootstrap : samp : 来的
|
t****r 发帖数: 702 | 7 当然不是这样说说就有道理了,严格的证明也有很多人做啊,只是很多人都不会去看而
已。
而且统计很多做法,最重要的还是intuition,或者大师所津津乐道的哲学(逻辑)。你
所说的sufficient statistic,只是对poupulation mean 或者population variance来
说,所有样本中关于这两个参数的信息都被summarize到sample mean或者sample varia
nce中了。但是同时如果考虑到他们又是complete statistic,也就是说他们是包含所
有这些参数信息“最小的”statistics. 很显然,他们过滤掉了很多原来样本中有用的
信息。 最好的sufficient statistic就是样本本身哈。 很简单一个例子就是,我们要
刻画一个变量的分布,显然仅仅有mean和variance是不够的。除了normal 的
distribution之外,有相同mean和variance的分布有无穷多个。
再用tree classifer来做例子。如果我们可以试图定义一个“sufficient statistic”
来进行分类,那当然好,bootstrap也就变得不是很有意义。但是这个事情不是那么str
aightforward的一件事情,很难。其实tree classifier在做一件事情就是把一个高维的
covariate space划分成好多的区块,然后按照区块来进行分类。虽然你的所有的样本可
能只有一个数据集,但是通过对数据集进行一定程度上的重新组合,是有可能来模拟这
种区块上的变化的,给tree更多适应样本空间的能力。
这个不是严格的论述,严格的论述我做不到。但是我觉得很多方法,逻辑上讲得通,实
践中有效果,必然存在他内在合理的地方。只是他的运行规则超出了我们目前的认识,
还需要后来人继续努力。
s
【在 q**j 的大作中提到】 : 这玩意难道就这样说说就有道理了?不是有人证明了sample mean是population mean的 : suffiicent statistic了么?sample vairance是population variance的sufficient s : tatitic 了么?这样还boot什么? : 难道distribution不是normal的情况下boot就有用了?这个是否应该证明一下,什么情 : 况下boot比较有用。 : : 的简 : boot : bootstrap : samp
|
k********g 发帖数: 56 | 8 赞,这样严肃认真的讨论一些理论问题感觉真好。
的简
boot
bootstrap
samp
来的
【在 t****r 的大作中提到】 : 前面有人问bootstrap能不能更逼近真理。我不是这方面的专家,但是发表一点自己的简 : 介,希望和大家交流一下吧。 : 总体而言, 我觉得使用bootstrap不能说是逼近真理。但是有的时候,确实比不做boot : strap比更好,或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的 : 原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的,所以用bootstrap : 的效果不会比使用原来的样本好多少。这一点我也同意。 : 但是从另外一个角度来说,一个样本里面包含的信息是很丰富的,我们是否已经完全利 : 用了现有样本里面的信息呢?最简单的例子来说,一个样本,很多时候我们用就用samp : le mean来summarize样本信息,但是使用sample mean的时候又忽视了多少样本中原来的 : 信息呢? 比如各种quantile的信息之类。 类似的,换一个角度来说,bootstrap是在重
|
r*****y 发帖数: 199 | 9 你这是n goes to infiniti吧,给你sample size 10,你怎么办~ 不是什么时候都可
以依靠asymptotic result的吧~
s
【在 q**j 的大作中提到】 : 这玩意难道就这样说说就有道理了?不是有人证明了sample mean是population mean的 : suffiicent statistic了么?sample vairance是population variance的sufficient s : tatitic 了么?这样还boot什么? : 难道distribution不是normal的情况下boot就有用了?这个是否应该证明一下,什么情 : 况下boot比较有用。 : : 的简 : boot : bootstrap : samp
|
T*******I 发帖数: 5138 | 10 如果是你,你会怎么办?例如,这10个人的样本包含着某种疾病的几个临床检测指标。
【在 r*****y 的大作中提到】 : 你这是n goes to infiniti吧,给你sample size 10,你怎么办~ 不是什么时候都可 : 以依靠asymptotic result的吧~ : : s
|
|
|
p********r 发帖数: 1465 | |
p*******g 发帖数: 809 | 12 有没有人用bootstrap做high-dimensional data的统计分析的? 有何评价? |
z******n 发帖数: 397 | 13 http://www.google.com/url?sa=t&rct=j&q=stability%20selection&so
试试这个,不完全是bootstrap,只能算是随即化算法的一个进展
【在 p*******g 的大作中提到】 : 有没有人用bootstrap做high-dimensional data的统计分析的? 有何评价?
|
X******2 发帖数: 5859 | 14 这篇文章的两位作者都是牛人啊。
老夫对他们的工作很是推崇。
【在 z******n 的大作中提到】 : http://www.google.com/url?sa=t&rct=j&q=stability%20selection&so : 试试这个,不完全是bootstrap,只能算是随即化算法的一个进展
|
z******n 发帖数: 397 | 15 这个可以算是近几年真正的进展。其实他们这套方法平时在做项目的时候经常用,只是
不知道理论上能不能证出来。这俩牛人证出来了,很有价值的理论工作。
【在 X******2 的大作中提到】 : 这篇文章的两位作者都是牛人啊。 : 老夫对他们的工作很是推崇。
|
d******e 发帖数: 7844 | 16 拜托,做假设检验靠的是Tail distribution... ...
知道mean和variance根本决定不了tail distribution什么样
s
【在 q**j 的大作中提到】 : 这玩意难道就这样说说就有道理了?不是有人证明了sample mean是population mean的 : suffiicent statistic了么?sample vairance是population variance的sufficient s : tatitic 了么?这样还boot什么? : 难道distribution不是normal的情况下boot就有用了?这个是否应该证明一下,什么情 : 况下boot比较有用。 : : 的简 : boot : bootstrap : samp
|
d******e 发帖数: 7844 | 17 subsampling和boostrap还不是一回事
【在 z******n 的大作中提到】 : http://www.google.com/url?sa=t&rct=j&q=stability%20selection&so : 试试这个,不完全是bootstrap,只能算是随即化算法的一个进展
|