第8页 - 关于样本数的讨论汇总 - 话题女王

全部话题 - 话题: 样本数

v******i
发帖数: 1246

来自主题: Statistics版 - 据说生统很好找工作

还是很好找的
我从毕业以后到现在知道的统计生统MS 认真找了的基本都找到了
样本数20+
真正转了phd的都是没怎么找的
上个月面试了个刚毕业的这个月就看到人家linkedin已经找到工作了

w********t
发帖数: 96

来自主题: Statistics版 - 生物统计PhD到底是学什么的。。。

谢谢你的回复！
我是把一个生统教授的近几年的文章下下来的，还特意挑了不同的杂志。
可能我的样本数不够多吧：）

f***n
发帖数: 254

来自主题: Statistics版 - 求助多元统计问题

我有两组数据，
一组是2010年的一个班的作业成绩，另一个是2011年一个班的作业成绩。两年的样本数
目相等，都是20.
作业成绩包括Hand Written的成绩以及Web assign的成绩。
I want to test if there is evidence for a difference in mean homework scores
as measured by these above two variables?
要求用合适的多元统计方法test。
请问各位我应该怎样建立hypothesis， any assumption needed, 应该用那种多元统计
方法，any follow-up analysis to investigate the question?
Thanks

f**********i
发帖数: 206

来自主题: Statistics版 - 请教Latin Hypercube Sampling，谢谢！

用latin hypercube sampling方法产生sampling时，发现用两种不同的工具产生的结果
完全不一样。我用matlab code 做lhs时，每次产生的sampling都很随机。就是同一个
code，我每run一次给出的结果都不一样。我用另一个软件做lhs时，只要给定了最大值
，最小值和样本数，结果始终一样。用两种做法，都是假定参数是uniform
distrubution。我猜测的解释是：前者没有correlation matrix，在code中有一个矩阵
是随机产生的，所以最终结果也很随机。后者是因为加入了correlation matrix。我完
全是在黑箱操作lhs。不知道这个解释对不对？
我本人不是统计的，只是在做自己相关研究时要用到lhs。可是这个lhs是后面工作的基
调。如果lhs做错了，意味着后面的结果全错。所以lhs非常关键。想问的问题很多：
（1）假定参数是均匀分布的，lhs是不是只有一种方法？为什么我用两种不同的工具得
到的结果完全不一样？就像上面说的那样。
（2）大家如果要用到lhs，一般都是怎么做的？
（3）使用的lhs会影响到后面emul... 阅读全帖

f**z
发帖数: 154

来自主题: Statistics版 - 统计牛人来帮个忙啊

只能用两样本非参数检验，不能用t检验。t检验只对正态适用。即使A和B都来自于正态
，把A和B混起来也不是正态了。 LZ直觉有一定道理，如果B的样本数比A小太多，那么A
和B混起来以后，恐怕要重新做检验。

a**w
发帖数: 60

来自主题: Statistics版 - Proc Surveyselect中, 当 reps >=2 时, 样本重复

如何避免?
例如, 在下例中, 抽取的总样本数1400中, 可以有大概1/3的样本是1次,或2次,3次,...
, 重复的.
proc surveyselect data=s /* 10000 个数据 */
method=sys
n=200
reps=7
seed=37652
out=s1
;
control var1 var2 var3;
run;
如果设置 seed=0, 那么样本重复数会小一些, 但是重复率仍然很大.
请大家帮忙看看该怎么处理. 谢谢!

S******Q
发帖数: 475

来自主题: Medicalpractice版 - 美国医生工资会减半吗？

你对我说什么刻薄话也没啥关系,我也可以刻薄一下,反正就是耍.省得大家憋得难受.
我也可以告诉你,我也没看出来来有的美国的家庭医生比有的中国的医生水平高,看区别
在这里,我没有能力象你那样管窥就知全貌,虽然不管哪国医生我见的无疑样本数要比你
大得多.

A*******s
发帖数: 9638

来自主题: Medicalpractice版 - 网评，blessing or curse?

这个internet rating是几家欢乐几家愁。
我觉得如果样本太小的话，这个rating会mislead病人。应该由一个机构统一做调查
，满足标准，特别是样本数足够再发表才是对病人负责的态度。我看到一个医生得
了五星，就只有一个人投票，这个评分就不公正。
我支持这个评分制度，对医生对病人都好，但必须公正。

G****o
发帖数: 229

来自主题: DataSciences版 - 讨论一下：几种clustering方法的特点，区别，长处各是什么？

K-mean: 简单，大样本，分类数目不多，每个分类的样本数差不多
hierarchical clustering: 树结构，大样本，多分类，可以限制数据点间的连接关系。
GMM: 好处：快，缺点：不稳定。
Spectral cluster: 通过映射到低维处理图像相关问题，处理比较少的类别
DBSCAN: 寻找高密度区域。大数据，适中的分类数目
manifold learning: 将数据映射到低维
想看中文的详细介绍，我在翻译scikit-learn的文档。
可以check out https://github.com/jiayiliu/scikit-learn 编译一下doc_sc 里面的
文档
希望能有朋友一起完成

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-01
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-01/short.html
1) 【稀疏线性模型】 by @爱可可-爱生活
关键词：算法, Trevor Hastie
[视频]《Sparse Linear Models》 [1] Stanford的Trevor Hastie教授在H2O.ai Meet-
Up上的报告，讲稀疏线性模型——面向“宽数据”(特征维数超过样本数)的线性模型
云: [2] 13年同主题报告: [3] 讲义: [4]
[1] http://new.livestream.com/accounts/10932136/events/3779068
[2] http://pan.baidu.com/s/1jGy0WB0
[3] http://pan.baidu.com/s/1kTMf6h5
[4] http://... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

p***o
发帖数: 44

来自主题: DataSciences版 - 如何理解 curse of dimensionality

上面的回答不完全对。drburnie 回答的是large p small n 导致的问题。这不是传统
意义上的curse of dimensionality。这个词是专在non parametric estimation 里才
用到的，近几年却因为high dim 的火热被人张冠李戴了很多。
直观解释的确是需要的数据随着dim 增加而迅速增长。但最早是专指kernel density
estimation 中收敛速度会变慢。估计density 时，把数据按照小窗口来分，一个一个
小窗口来估计。单位面积内分割的小窗口的个数是维度的指数，如果每个小方格里需要
一个点，在三维下就已经需要1000个数据了。这个困难扩展到kernel smoothing 和其
他的non parametric regression。
如果把curse of dim 理解成“估计的精确度随着维数增加而下降”，那就作为一个现
象永远存在。无论有多少样本，无论维数是多少。哪怕样本数是10000，或者更多，只
要维数增加了，哪怕只是从2加到3，它还是存在。

s******e
发帖数: 16668

来自主题: _LoTaYu版 - HOLD不住了

你说的每一句俺都同意啊。
我的感觉好像老罗在大陆人心中的地位更高似的。我认识的台湾人都不甩他，当然我的
样本数很有限。
一个原因我猜就是他的政治立场让一些台湾人不爽了。

子。

s******e
发帖数: 16668

来自主题: _LoTaYu版 - HOLD不住了

k*****e
发帖数: 22013

来自主题: _kaleege版 - 方粉们看看逻辑和数学吧：弱质疑和忽悠能“串”成强证据链吗

【以下文字转载自 WaterWorld 讨论区】
发信人: riczxc (riczxc), 信区: WaterWorld
标题: 送方粉：弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。
发信站: BBS 未名空间站 (Mon Feb 6 10:45:35 2012, 美东)
原作者:被打飞
地址：http://blog.sina.com.cn/s/blog_56fc0caa0100zryz.html
弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。
@被打飞
方韩争方兴未艾，但真正有水平的发言不多。昨天我的老朋友 @破破的桥的文章《韩
寒代笔探讨：强质疑、弱质疑、和忽悠》则毫无疑问的算一篇（我感觉是最好的一篇）。
http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html
概括来说，这篇文章把“质疑”分为三种，强质疑（找到发生概率仅为0.1%或更低的事
件，下称强疑点），弱质疑（找到发生概率20%的事件，下称弱疑点），忽悠（拿发生
概率50%甚至更高的事件当疑点）。他指出，目前质疑派并未... 阅读全帖

k*****e
发帖数: 22013

来自主题: _kaleege版 - 方粉们看看逻辑和数学吧：弱质疑和忽悠能“串”成强证据链吗

h***i
发帖数: 2421

来自主题: _Xiyu版 - 我们来猜男女吧

我猜是女孩～～～
我一向猜得很准，只要我猜过的都中了～～～
样本数为一的说………………

w*******s
发帖数: 559

来自主题: _Korea版 - 女生，大多优柔寡断，不明白什么样的男人最适合自己

不算性别歧视吧，主要出自本人观察统计，样本数> 100，置信区间>90%
主要出于生理和心理差异，就好比女生好吃零食，如果超过10位女生认为是性别歧视，
本人将自行删除，
统观高中大学有些女生：
1。战术层次上聪明，战略层次上不智慧，英文叫 penny Smart, pound un-wise, 其
实不明白什么样的男人最适合自己，　有个别容易结婚后后悔。
２。往往具有较好的短期盘算，但是容易缺乏长期眼光, 往往不能正确识别像胖黑、鸭
子一类的绩优股，往往结婚后才知道自己需要什么样的男人，容易造成红杏出墙。　容
易造成优柔寡断，不知道什么东西适合自己，有盲从心理。不果敢，又一次陪一个女生
看车，后来听另外哥们讲，居然看了超过２０辆，还没有看好，把同组所有的哥们累得
够呛，呵呵，
３。女生有些容易受周围环境影响，　好攀比，相对比较好虚荣，　如果一个宿舍里面
有三个女生认定某男是精品男，那其他女孩容易认同，较缺乏独立个性，　有很强的趋
同避祸减少风险心理。
４。模仿能力强，创新精神相对较弱。　就像做化学实验，如果给出详细操作步骤，能
够做的比较好，但是如果需要很强设计动手能力，就容

topics