由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - [合集] 说两句关于bootstrap的看法
相关主题
Dr. Efron要来DC讲座了,我该去听吗?[合集] 有个bootstrap的问题想找人讨论下。
random forest里面为什么是"可放回"的resample呢?请大牛推荐cross validation 方面的好Book/Paper
请大家推荐一下 bootstrap 的书请问:bootstrap的应用范围
说两句关于bootstrap的看法求用R做bootstrap的example script
standard deviation v.s. standard error关于Bootstrap法需要强调的是
有个bootstrap的问题想找人讨论下。请教一个bootstrap的问题(包子)
请教如果计算CI for the ratio of two independent means?讨论个问题,classification 的label 非常不平均
[合集] 请教一个关于R的问题请教一个bootstrapping的问题。
相关话题的讨论汇总
话题: bootstrap话题: 两句
进入Statistics版参与讨论
1 (共1页)
p********a
发帖数: 5352
1
☆─────────────────────────────────────☆
tamuer (hoho) 于 (Fri Oct 21 20:41:07 2011, 美东) 提到:
前面有人问bootstrap能不能更逼近真理。我不是这方面的专家,但是发表一点自己的简
介,希望和大家交流一下吧。
总体而言, 我觉得使用bootstrap不能说是逼近真理。但是有的时候,确实比不做boot
strap比更好,或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的
原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的,所以用bootstrap
的效果不会比使用原来的样本好多少。这一点我也同意。
但是从另外一个角度来说,一个样本里面包含的信息是很丰富的,我们是否已经完全利
用了现有样本里面的信息呢?最简单的例子来说,一个样本,很多时候我们用就用samp
le mean来summarize样本信息,但是使用sample mean的时候又忽视了多少样本中原来的
信息呢? 比如各种quantile的信息之类。 类似的,换一个角度来说,bootstrap是在重
复地寻找原来样本中所含有不同的信息。我觉得这是为什么bagging和random forest的
方法之所以work的原因。事实上,bagging和random forest使用bootstrap之后效果的增
加也是很明显的。
另外,很多人觉得bootstrap没什么用事因为觉得bootstrap并不能产生新的信息。其实
也不尽然。很多统计工具,其实它们本身就含有很多随机性,比如 tree classifier。
一堆数据当中,可能换掉其中的一个样本点,可能最后的分类结果就会差很多。但是这
种统计工具的刻画又不像t-test之类的那么简单,相当于一个比较复杂的黑箱子系统。
你不断地用不同的数据去试,对于黑箱子来说,样本的组成不同,就是新的信息。 是哦
你个重复抽样然后取平均,是可以用来调整这种classifer的variation的。(事实上,
每个bootstrap样本会有1/3左右在原样本里的样本点被排除在外,相当于一种比较大的
扰动了)。
另一个使用bootstrap的原因就比较无奈了,因为那是only way接近“真理”吧。像我们
平常所用的t-statistic 他是有closed formed的分布的,但是统计中很多其他的统计
量是没有这么好的分布性质的,所以只能用bootstrap的方法来进行模拟。从没有办法
看到分布到至少有个模糊的概念我觉得在某种程度上也是一种更加接近真理?
☆─────────────────────────────────────☆
Curapica (提督·月) 于 (Sat Oct 22 02:04:33 2011, 美东) 提到:
这样严肃认真的讨论真好
☆─────────────────────────────────────☆
repast (xebec) 于 (Sat Oct 22 02:16:16 2011, 美东) 提到:
bootstrap 忘得差不多了,不过 t-statistic 是 normal 分布的么?

的简
boot
bootstrap
samp
来的
☆─────────────────────────────────────☆
qqzj (小车车) 于 (Sat Oct 22 03:37:00 2011, 美东) 提到:
这玩意难道就这样说说就有道理了?不是有人证明了sample mean是population mean的
suffiicent statistic了么?sample vairance是population variance的sufficient s
tatitic 了么?这样还boot什么?
难道distribution不是normal的情况下boot就有用了?这个是否应该证明一下,什么情
况下boot比较有用。
的简
boot
bootstrap
samp
来的
☆─────────────────────────────────────☆
angelsun (安吉笋) 于 (Sat Oct 22 08:55:20 2011, 美东) 提到:
t-stat当然是t-dist的啦 :D
前提是samples are from a normal dist.
处的
全利
在重
☆─────────────────────────────────────☆
tamuer (hoho) 于 (Sat Oct 22 10:11:18 2011, 美东) 提到:
说错了,应该是t分布的。写的时候脑子犯晕。。。
☆─────────────────────────────────────☆
tamuer (hoho) 于 (Sat Oct 22 10:23:25 2011, 美东) 提到:
当然不是这样说说就有道理了,严格的证明也有很多人做啊,只是很多人都不会去看而
已。
而且统计很多做法,最重要的还是intuition,或者大师所津津乐道的哲学(逻辑)。你
所说的sufficient statistic,只是对poupulation mean 或者population variance来
说,所有样本中关于这两个参数的信息都被summarize到sample mean或者sample varia
nce中了。但是同时如果考虑到他们又是complete statistic,也就是说他们是包含所
有这些参数信息“最小的”statistics. 很显然,他们过滤掉了很多原来样本中有用的
信息。 最好的sufficient statistic就是样本本身哈。 很简单一个例子就是,我们要
刻画一个变量的分布,显然仅仅有mean和variance是不够的。除了normal 的
distribution之外,有相同mean和variance的分布有无穷多个。
再用tree classifer来做例子。如果我们可以试图定义一个“sufficient statistic”
来进行分类,那当然好,bootstrap也就变得不是很有意义。但是这个事情不是那么str
aightforward的一件事情,很难。其实tree classifier在做一件事情就是把一个高维的
covariate space划分成好多的区块,然后按照区块来进行分类。虽然你的所有的样本可
能只有一个数据集,但是通过对数据集进行一定程度上的重新组合,是有可能来模拟这
种区块上的变化的,给tree更多适应样本空间的能力。
这个不是严格的论述,严格的论述我做不到。但是我觉得很多方法,逻辑上讲得通,实
践中有效果,必然存在他内在合理的地方。只是他的运行规则超出了我们目前的认识,
还需要后来人继续努力。
s
☆─────────────────────────────────────☆
karlmzhang (Charles) 于 (Sat Oct 22 10:51:53 2011, 美东) 提到:
赞,这样严肃认真的讨论一些理论问题感觉真好。
的简
boot
bootstrap
samp
来的
☆─────────────────────────────────────☆
realshy (猪一样的男子) 于 (Sat Oct 22 12:13:08 2011, 美东) 提到:
你这是n goes to infiniti吧,给你sample size 10,你怎么办~ 不是什么时候都可
以依靠asymptotic result的吧~
s
☆─────────────────────────────────────☆
TNEGIETNI (lovewisdom) 于 (Sat Oct 22 17:53:40 2011, 美东) 提到:
如果是你,你会怎么办?例如,这10个人的样本包含着某种疾病的几个临床检测指标。
☆─────────────────────────────────────☆
powerpower (屁股) 于 (Sat Oct 22 19:53:35 2011, 美东) 提到:
bootstrap在小样本数据前很好用
☆─────────────────────────────────────☆
plantking (plantking) 于 (Sun Oct 23 05:01:32 2011, 美东) 提到:
有没有人用bootstrap做high-dimensional data的统计分析的? 有何评价?
☆─────────────────────────────────────☆
zhanghan (bootstrap) 于 (Sun Oct 23 10:50:34 2011, 美东) 提到:
http://www.google.com/url?sa=t&rct=j&q=stability%20selection&so
试试这个,不完全是bootstrap,只能算是随即化算法的一个进展
☆─────────────────────────────────────☆
zhanghan (bootstrap) 于 (Sun Oct 23 13:16:40 2011, 美东) 提到:
这个可以算是近几年真正的进展。其实他们这套方法平时在做项目的时候经常用,只是
不知道理论上能不能证出来。这俩牛人证出来了,很有价值的理论工作。
☆─────────────────────────────────────☆
drburnie (专门爆料) 于 (Mon Oct 24 18:40:07 2011, 美东) 提到:
拜托,做假设检验靠的是Tail distribution... ...
知道mean和variance根本决定不了tail distribution什么样
s
☆─────────────────────────────────────☆
drburnie (专门爆料) 于 (Mon Oct 24 18:41:30 2011, 美东) 提到:
subsampling和boostrap还不是一回事
1 (共1页)
进入Statistics版参与讨论
相关主题
请教一个bootstrapping的问题。standard deviation v.s. standard error
如果regression relation depends on dependent variable, 应该用什么regression model?有个bootstrap的问题想找人讨论下。
如何计算非正太分布的mean 的confidential interval请教如果计算CI for the ratio of two independent means?
只有10组OBS,一个X一个Y, 能用什么方法估计?[合集] 请教一个关于R的问题
Dr. Efron要来DC讲座了,我该去听吗?[合集] 有个bootstrap的问题想找人讨论下。
random forest里面为什么是"可放回"的resample呢?请大牛推荐cross validation 方面的好Book/Paper
请大家推荐一下 bootstrap 的书请问:bootstrap的应用范围
说两句关于bootstrap的看法求用R做bootstrap的example script
相关话题的讨论汇总
话题: bootstrap话题: 两句