发帖数: 1 | 1 所谓大数据是说样本量大,随机性高,能够接近反映种群的基本属性。你举的数据都是
biased,只代表种群小部分,就是数据再大也无法反映种群的总体。种群里还有大量的
人对政治不狂热,没时间上网,没兴趣争辩。
[在 katharinezl (linlin) 的大作中提到:]
:上个星期的文章,什么是大数据,就是大量的,没有经过人工处理,随机的数据,
:trump是否能赢你要看下面的几个数据:
:1)各大social network网络的follower数据
:poll在信息发达的今天,已经没有多大用处了,只有大数据才能给给正确的方向。
:还有就是不要被媒体brain wash,多用logic thinking,这次对gay的袭击
:1)FL是最重要的swing state,想想看普通人会怎么投票
:Poll和各大媒体都是noise,有时候可以当作反指,越是抹黑谁,说明谁越有可能赢(
:但是不是所有时候,因为媒体最重要的就是引起争议,所以更多的时候是充当了挑起
战火的脚色,所以就是noise)
:我相信,google,华尔街,大佬们(背后的PAC),包括白宫,fbi,cia通过对数据的
解读... 阅读全帖 |
|
发帖数: 1 | 2 所谓大数据是说样本量大,随机性高,能够接近反映种群的基本属性。你举的数据都是
biased,只代表种群小部分,就是数据再大也无法反映种群的总体。种群里还有大量的
人对政治不狂热,没时间上网,没兴趣争辩。
[在 katharinezl (linlin) 的大作中提到:]
:上个星期的文章,什么是大数据,就是大量的,没有经过人工处理,随机的数据,
:trump是否能赢你要看下面的几个数据:
:1)各大social network网络的follower数据
:poll在信息发达的今天,已经没有多大用处了,只有大数据才能给给正确的方向。
:还有就是不要被媒体brain wash,多用logic thinking,这次对gay的袭击
:1)FL是最重要的swing state,想想看普通人会怎么投票
:Poll和各大媒体都是noise,有时候可以当作反指,越是抹黑谁,说明谁越有可能赢(
:但是不是所有时候,因为媒体最重要的就是引起争议,所以更多的时候是充当了挑起
战火的脚色,所以就是noise)
:我相信,google,华尔街,大佬们(背后的PAC),包括白宫,fbi,cia通过对数据的
解读... 阅读全帖 |
|
发帖数: 1 | 3 如果多数是silent, 说明或者突变产生的时间不够,或者样本量太小。个人认为这个研
究结果的意义在于nonprogressors并不依赖于两个基因的突变。
the |
|
s*********r 发帖数: 9493 | 4 版上大牛多,我就不卖弄了。
不过,下面这个关于样本量和样本代表性的讨论可以回答你的问题:
Sample Size vs. Representative Samples
Sample size and representativeness are two related, but different issues.
The sheer size of a sample does not guarantee its ability to accurately
represent a target population.
Large unrepresentative samples can perform as badly as small
unrepresentative samples.
A survey sample’s ability to represent a population is much more closely
related to the sampling frame (the list from which the sample is selected)
than... 阅读全帖 |
|
s*********r 发帖数: 9493 | 5 从统计分析的角度看,样本量400-500以上,statistical power就大体足够了。
在这种情况下,决定调研结果可靠性的主要是sample representativeness,而不是
sample size。
如果抽取的样本不能代表总体, 你就是“调研”几百万人,出来的结果也是垃圾。
如果能确保样本的代表性,抽取一个400-1000的样本,其结果就可以很好地预测选举结
果。
至于那个“online poll”,压根就是个frequency counting,连调研都算不上的。 |
|
s*********r 发帖数: 9493 | 6 你引用的这个,和我说的那个,是两个不同的问题。
我说的是,单一调研的样本量和样本代表性关系的问题。
你引用的是多次调研结果更趋近于总体期望值的问题。
不过你说的这个也相关,因为所有的调研都不可避免地有误差,所以媒体会倾向于报告
多个调研的平均结果,而不是过分解读某一个特定的调研结果。
value
probability
According
closer |
|
f**********n 发帖数: 29853 | 7 无知到极点。
请论证,“从统计分析的角度看,样本量400-500以上,statistical power就大体足够
了“
俺不是很懂统计,但是知道啥是专家。你丫这几篇帖子,骗外行都不够,骗我更不行,
就更别提骗内行了。 |
|
f**********n 发帖数: 29853 | 8 “从统计分析的角度看,样本量400-500以上,statistical power就大体足够 了“
懂统计的人看到这会笑出来。在谈论统计的文章里,居然会出现“大体“这种模糊词。
你丫知道统计里有专门的名词用数字描述这“大体“具体是多少吗?
哦,我明白了,你丫说的大体是闽南话里的尸体的意思,对不对? |
|
s*********r 发帖数: 9493 | 9 烂苹果有进步哈。
确实,样本量太小,统计分析无意义。
egpain就是那个发骚文的chatman。 |
|
l***o 发帖数: 7937 | 10 样本量1391,选民才874,就是说517没投票权。
用西语采访,人为扩大了西裔的比例。
估计样本里面没投票权的西裔的移民或非法移民不少。
再说问题诱导性太强。
比如:
问题一:12个女人控诉川普,你相信谁?
问题二:川普摸女人,你认为他合格吗?
问题三:你选川普还是选希拉里?
这么设计民调,结果能信吗? |
|
l***o 发帖数: 7937 | 11 比较引起轰动的主要是那个ABC/Wapo的民调,这个民调:
样本量1391,选民才874,就是说517没投票权。
用西语采访,人为扩大了西裔的比例。
估计样本里面没投票权的西裔的移民或非法移民不少。
再说问题诱导性太强。
比如:
问题一:12个女人控诉川普,你相信谁?
问题二:川普摸女人,你认为他合格吗?
问题三:你选川普还是选希拉里?
这么设计民调,结果能信吗? |
|
l***o 发帖数: 7937 | 12 发信人: luobo (菠萝), 信区: USANews
标 题: Re: POLL这东西的确不可全信
发信站: BBS 未名空间站 (Mon Oct 24 10:35:08 2016, 美东)
最近比较引起轰动的主要是那个ABC/Wapo的民调,改变了整体MSM的narrative。
这个民调:
样本量1391,选民才874,就是说517没投票权。
用西语采访,人为扩大了西裔的比例。
估计样本里面没投票权的西裔的移民或非法移民不少。
再说问题诱导性太强。
比如:
问题一:12个女人控诉川普,你相信谁?
问题二:川普摸女人,你认为他合格吗?
问题三:你选川普还是选希拉里?
这么设计民调,结果能信吗? |
|
r*********t 发帖数: 4911 | 13 因为你的数据源有问题,样本量不够。任何社会都有孤陋寡闻的人。你用一个有问题的
样本下结论,基本上来讲就是记者为了发稿凑字数的无聊行为。 |
|
发帖数: 1 | 14 提醒:在这个班上搞基于良心的民调,恐怕有效样本量不足。 |
|
p*******i 发帖数: 1181 | 15 不算高端 10万刀 不算特别罕见 这个level的车总体来说不多见,样本量小,所以观测
值有偏差很正常 |
|
P*********g 发帖数: 1336 | 16 小心谨慎开,别还超速什么的。
然后做好被罚款的打算,安全驾驶。。。
真的没有人能告诉你这个概率--样本量太小啊。 |
|
z****g 发帖数: 2128 | 17 其他条件一模一样?样本量多大?
不然实验结果没法摆上桌面 |
|
i****x 发帖数: 17565 | 18 你别老这么不耐烦的,每帖都来一句“算了”。我现在对这个数据是否可靠毫无兴趣,
就是纯学术讨论,为什么汽车故障率就会随样本量增加而增加。真心求教。希望你能给
我讲解一下,就算要用数学公式也没问题,我应该看得懂。
为了没有歧义,我这里假设一个简化的汽车可靠性调查模型。假定年底我做两个调查,
全国性随机抽取1000个人和100个人,都是最新accord,假设抽取方法足够随机。问卷
只有一个问题:你的accord发动机一年内出过问题没有,1或者0。然后我把每个样本所
有问卷结果加起来,除以样本数目,得到两个平均故障率统计,X1和X2。请你解释一下
为什么E(X1)>E(X2)。 |
|
D***o 发帖数: 4304 | 19 总得来说,如果这么新,一般都不会出问题,但也有个案
07年貌似过了一些车的5yr warrenty
10年的又再保,有的能transfer,有的不能
还是不能一概而论的
具体那个可靠,google 一下你心意的具体车型,看看customer review 吧。找样本量
大的,看5stars 和1 star.
Malibu |
|
D***o 发帖数: 4304 | 20 总得来说,如果这么新,一般都不会出问题,但也有个案
07年貌似过了一些车的5yr warrenty
10年的又再保,有的能transfer,有的不能
还是不能一概而论的
具体那个可靠,google 一下你心意的具体车型,看看customer review 吧。找样本量
大的,看5stars 和1 star.
Malibu |
|
D***o 发帖数: 4304 | 21 赞客观!
我觉得看网上的customer review,如果样本量大就很能说明问题 |
|
d***y 发帖数: 8107 | 22 不同州估计能差个1000,版内搜索一下,看看有没有你所在州的,因为报16000-17000
之间的网友,样本量本来也不是很大 |
|
d***y 发帖数: 8107 | 23 不同的州这个价格拿下的样本量应该至少有10+了 |
|
d*******s 发帖数: 15155 | 24 看你的样本量有多少吧,就我的观察(二十来辆不同品牌)它们没有显著差异。二手车
买的时候就要挑好,而且你说的问题是个老车都可能发生,dfbb也有。可能你碰到了不
好的,但不代表所有都不好。水箱这些问题,如果买的时候没挑好(比如我以前买的一
个老f150,前车主一直加水不用coolant,早就漏惨了),那只能说是你的问题,这样
的还是赶紧卖掉买新车好了 |
|
w********r 发帖数: 1825 | 25 刚youtube搜了一下subaru eyesight, 一共8000多个结果,样本量太少
Volvo city safety有40多万结果
你靠这个证明eyesight有多安全是比较搞的 |
|
d******e 发帖数: 7844 | 26 Decon的结论其实是有一定道理的。只不过他未必明白更深层的含义,至少我下面说的
本科的统计大都不会提及,美国的硕士统计课程也比较少提及。读PhD的话,修过
Advnaced的Inference课程的话,应该明白我在说什么。
因为是五年前修的课了,所以个别地方可能说的不准确,但是思路应该基本正确。
当一个Bernoulli r.v.的参数(分布均值)非常接近0的时候,想要同时准确估计样本的
参数和样本方差是很难的。现在可以看到p肯定是非常小的,很可能是在1e-5~1e-6的数
量级上。这时想用MLE的Asymptotic normality来做近似就很成问题了,因为对分布的
方差的估计的方差对比分布的方差本身还要大,导致你对方差的估计十分不可靠,最后
testing的结果非常不准,CI也十分不可靠。
解决办法我说两种,感兴趣的可以去看。第一种是去做exact testing,不做近似,但
鉴于样本量大,计算量会非常大。第二种是在推导Asymptotic ditribution时做高阶泰
勒展开,这样可以获得更精确的近似。
当然,也可以Heuristic的去直接拿mean比或者用norm... 阅读全帖 |
|
d******e 发帖数: 7844 | 27 Decon的结论其实是有一定道理的。只不过他未必明白更深层的含义,至少我下面说的
本科的统计大都不会提及,美国的硕士统计课程也比较少提及。读PhD的话,修过
Advnaced的Inference课程的话,应该明白我在说什么。
因为是五年前修的课了,所以个别地方可能说的不准确,但是思路应该基本正确。
当一个Bernoulli r.v.的参数(分布均值)非常接近0的时候,想要同时准确估计样本的
参数和样本方差是很难的。现在可以看到p肯定是非常小的,很可能是在1e-5~1e-6的数
量级上。这时想用MLE的Asymptotic normality来做近似就很成问题了,因为对分布的
方差的估计的方差对比分布的方差本身还要大,导致你对方差的估计十分不可靠,最后
testing的结果非常不准,CI也十分不可靠。
解决办法我说两种,感兴趣的可以去看。第一种是去做exact testing,不做近似,但
鉴于样本量大,计算量会非常大。第二种是在推导Asymptotic ditribution时做高阶泰
勒展开,这样可以获得更精确的近似。
当然,也可以Heuristic的去直接拿mean比或者用norm... 阅读全帖 |
|
h*******7 发帖数: 553 | 28 刚去fuelly看了一下 上面开cx5的比开crv的多了三倍 按说2015 crv比2014 crv的mpg
提高了很多 fuelly上统计的反而2014比2015高 是不是样本量不足? |
|
h*******7 发帖数: 553 | 29 刚去fuelly看了一下 上面开cx5的比开crv的多了三倍 按说2015 crv比2014 crv的mpg
提高了很多 fuelly上统计的反而2014比2015高 是不是样本量不足? |
|
J***o 发帖数: 7166 | 30 目前为止未听说 但样本量较小时间较短 tlx按照现款基本就是六缸就shawd 要么就四
缸8dct |
|
v*******n 发帖数: 8995 | 31 首先排放超标的,
也就是电脑作弊的是Nox,这个东西号称link to lung cancer
但所谓的研究就是看看住在路边的人得lung cancer的比列是不是更高,样本量一版
10000左右,
这不废话么。
马路上的废气剁了去了,烟大灰大,还吵,你能赖光赖NoX
最近的一个比较负责的研究,统计乐大约30万人得出的结论是
With full adjustment for all measured confounders, the pooled results from
the cohorts showed that each increase in concentration of PM10 (each 10
micrometers/m3 increase) led to a corresponding increase in lung cancer risk
(hazard ratio 1.22, 95% confidence interval [CI] 1.03 to 1.45).
注意啊。。。。
However, for the other types of pollutan... 阅读全帖 |
|
f****l 发帖数: 5514 | 32 样本误差。CR这种每年一调查的样本量本来就不多。可靠品牌的车发生问题的概率本来
非常低,所以比不可靠的品牌统计误差更大(具体原理我也不指望无脑黑理解了)。
所以质量调查要连着几年看,好几个调查结合在一起看 |
|
c**********o 发帖数: 359 | 33
这位网友很好学,赞一个!置信区间的计算,关键在标准误差的估计上。楼主用的是
binomial测试,标准误差就是p*(1-p)/N 然后开根。p是百分比,N是样本量(保有量)
。有了标准误差,95%的置信区间 就是差不多p加减2倍(1.960倍)的标准误差。
楼主算的2016年的。laoselang算的是2017年的,不一样。2017 还没结束,所以2016年
的更完整些,我个人认为更有借鉴意义。 |
|
c**********o 发帖数: 359 | 34
你这里的算法,用的不是原百分比(比率),而是乘了100的,所以你的标准误差计算
可能有问题。目测置信区间不会太大,保有量(样本量)太大,标准误很小的。 |
|
D***0 发帖数: 5214 | 35 我用的是原来的比率,没用乘100的,只是呈现的时候后来再乘了100。这个计算有个问
题,车跟complaint不是一一对应的,可能一辆车提交多个complaints,所以并不是严
格的0-1的伯努利试验。
[在 chenyangxiao (newcomer) 的大作中提到:]
:你这里的算法,用的不是原百分比(比率),而是乘了100的,所以你的标准误差计算
:可能有问题。目测置信区间不会太大,保有量(样本量)太大,标准误很小的。 |
|
发帖数: 1 | 36 过年过节总要被劝酒的嘛,喝一杯又不会查出来的,没有关系的。
那到底有没有关系呢?喝一杯之后多久能上路?做了个小测试,分享给你看。
喝酒后多久可以开车上路?
国家规定酒驾醉驾标准
我找了几个公司的同事,分成三组每组两人,分别测试一下喝了少量的白酒、啤酒
、红酒以后多久可以开车上路。
国家有法律规定的,血液中的酒精含量在20mg-80mg/100ml之间,属于饮酒驾驶,
如果超过80mg/100ml属于醉酒驾驶。
知道这个基本规定之后,就可以来做实验了,这样一杯白酒大概二十毫升,也就是
差不多半两。
分别测试白酒、红酒、啤酒
红酒的量差不多是塑料杯1/4样子,这种塑料杯市面上很常见,大概是250毫升的样
子。
那四分之一杯不到就算是60毫升,电影里那些明星拿个高脚杯倒一杯红酒品一品大
概也就是这个感觉。
啤酒的话,刚好是你倒满一杯的样子,就是平时朋友说的喝个一杯没关系的一杯的
标准。
酒精测试仪单位为g/L
我们使用的仪器上面测试的单位是多少克每升,国内标准是毫克每一百毫升。
将测... 阅读全帖 |
|
D******1 发帖数: 240 | 37
我所见过的,样本量很少:
我们系的(就一个女的): 上身毛衣,下身深色裤子
化学系的:天天职业装,黑丝+长裙+衬衫+西服
英国着装也分类的,一般来说越是本地人,越随意.职位越低,越随意,越是差学校,越随意.
仅供参考 |
|
K**4 发帖数: 1015 | 38 这个PI predictor是基于25000 样本量做出的预测,要比很多的个人经验科学多了
这个也正说明单纯文章,她可能没有那么强,但是找职位是个package,她的方向,出
身,性别上占了优势。 |
|
O*****t 发帖数: 533 | 39 看到大家在吐槽中国PI, 女AP,我从另外角度来说两句。
我的样本量不大,从新lab起步,总共有过 3 个薄厚,2个 technician, 1个学生,其
中两个是国人,和其他国家的employee比,最大的不同是在她们身上看不到对这份 job
应有的尊重。 让自由发挥搞得一塌糊涂,布置具体任务做不好,最严重的是口头答应
的事情很多不能 deliver也不follow up, 不知道是忘了还是做不出来。比如一个女薄
厚,生完孩子一直在修产假,修了将近3个月,email问情况几乎不回,突然跑来要延期
签证,说是会在搬家时过来帮忙。签了字再不见踪影。看着搬家时候烙印薄厚和美国学
生忙前忙后,心里不是滋味。反正以后招国人我会特别慎重。 |
|
d*****s 发帖数: 34 | 40 据我目测,极品老板:average老板:nice老板 大概是7:2:1. 样本量30左右。
楼上有人说我被老板坑了所以来发泄,lol,我一个non thesis不写论文不做研究的打
酱油硕士轮得到老板们来坑我吗? |
|
f*********m 发帖数: 732 | 41 不写论文,除了上课和faculty都没交集,哪来那么多愤愤不平?就算遇上极品的人,
自己也不要走极端,不然自己也会变成极品
[在 dumbass (dumbass) 的大作中提到:]
:据我目测,极品老板:average老板:nice老板 大概是7:2:1. 样本量30左右。
:
:........... |
|
M*P 发帖数: 6456 | 42 【 以下文字转载自 Returnee 讨论区 】
发信人: hotpot1205 (hotpot), 信区: Returnee
标 题: 寻找志同道合的一起做研究,基因表达调控,中山大学
发信站: BBS 未名空间站 (Wed Jan 20 21:59:41 2016, 美东)
本人于2013年底到中山大学中山眼科中心工作。回国前在NCI做计算生物学实验室PI。眼
科中心长期国内专业排名第一,有很高的门诊量(~100万)和手术量(~25万),中国
唯一的眼科学国家重点实验室在这里。 我从事生物信息学,研究主要基于高通量数据
及分析,一般的测序和质谱数据都做。对基因表达调控的基础研究感兴趣。现在实验室
的情况:
1. 关注(1)基因翻译调控(translational regulation of gene expression)
的全局分析和调控机制,主要用到ribosome profiling和质谱技术。(2) LncRNA能否
被翻译,翻译出的肽段的功能。
2. 实验室现有13人。计算9人,实验4人。有高性能计算集群,miseq和hiseq2500各
一台,和完备的分子... 阅读全帖 |
|
S*R 发帖数: 30 | 43 得出这个结论,你这(一个)样本量也太小了吧。觉得稿件接收与否最重要的还是文章
本身。
祝下次好运! |
|
f********e 发帖数: 18 | 44
好吧,我是知心大姐那型=。=|||,很多熟人会跟我讲一些小秘密,但论坛上就不
方便说了。那就仅以我和几个闺蜜
来举例好了,样本量不大,最多是说服力较弱。那您举几个反例? |
|
W********t 发帖数: 116 | 45 不仅打电话,有空还要视频。我爸和我老公都这样。仿佛样本量小了点 |
|
a****n 发帖数: 8553 | 46 也许吧,我样本量太小了。我老公是离开儿子几天就想得不行。 |
|
P****D 发帖数: 11146 | 47 我拿猪后丘肉做出来的,吃的人(样本量为2)都说像牛肉干。那我可赚了,牛肉干多
少钱啊!
毛毛妈这个方子我也看过,就是比较抵触最后一步加玉米油(我不喜欢吃那么多油)。
这下看来不加油不行,不加油就是那么干巴巴的。 |
|
l*******2 发帖数: 5311 | 48 哈哈,那倒是,不过他们进入中年吃的就不行了
路边小摊也吃了不少,经常去买油条,包子,馒头,
估计地沟油也吃了不少。目前看来,他们同龄人里面
生病还是健康,除了营养过剩得高血压,糖尿病的,其他
还真的和基因遗传关系大。吃这些基本的蔬菜水果和得病不得病好像没啥直接关系
当然身边人观察,样本量不足,不能说明问题 |
|
L******d 发帖数: 2461 | 49 发现淘宝很多卖耳机的,尤其是卖杂牌耳机的,特别喜欢号称自己的耳机需要煲,少则
100小时,多则400小时。其实言下之意是伊卖的耳机你买回去后品质还有继续提高的潜
力。很多人纷纷评价说,花时间煲过后,觉得音质提高了。部分觉得没有差别的,也首
先怀疑是自己没有煲对。
关于煲耳机的理论基础,常常见到拿汽车break-in, 或酿酒来比喻的。因为汽车需要
break-in, 所以耳机也需要。这从因为到所以的转换多么自然啊。
我认为“煲耳机”这事与宗教,中医类似,主要是心理学在起作用,有很多人出来现身
说法做“见证”,但是一个共同点是,没有可以排除心理影响的有一定样本量的双盲实
验,也没有可以测量的数据。
有一个有趣的现象,就是有能力做这种盲测实验的耳机厂家们,从来没有一个出来为“
煲耳机”这事背书或辟谣的。 |
|
m********n 发帖数: 3 | 50 我看版上主要讨论的是it方面的,我做的是会计审计。以前一直做的是外部审计,没有
做过内部审计,也没涉足过这个行业,所以想问问,看有人知道么,可以交流交流。
马上要面试的是一家全球的提供金融信息服务的公司,行业排名第一。职位是内部审计
师,主要做404和财务报表审计, 不是IT审计。面试官是内审部的头头。心里很紧张。
1.面试都问些什么内容?要注意些什么?
2.这类公司的主要风险和工作重点是什么?
3.这类公司主要使用的软件是什么?主要是财务和管理方面的。
4.内审所采用的testing的方法和外审有区别么?内审开始是做walk through test?然
后control testing的时候是根据样本量的频率选取么?然后到substantive testing
的时候是sampling, non-statics来选取?根据materiality,population, item natue
等等选取?用什么软件么?
4.我看公司年报,公司每年不停收购和出售公司,我想问问为什么?是因为行业竞争激
烈,要保证市场份额么?
谢谢大家!
等我面试完了,一定反馈给大家。 |
|