第2页 - 关于pvalue的讨论汇总 - 话题女王

E**********e
发帖数: 1736

来自主题: Statistics版 - 做credit risk scorecard的朋友们，请进来，有问题求教

我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
可是现在越觉得有很多问题很疑惑，现在抛出来，请有经验的大侠指导。
公司是做loan lending的小公司，比较新，积累的charge off 数据4000不到，这个
跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
奇丑了，主要表现是training 和test的AUC差别很大，有很大overfitting。
现在问题来了。假设数据分成三个部分，数据一是training，数据二是test，数据三
是holdout。holdout 类似于future data，用来测试最后model 表现。所以这部分数
据只能在建模完后才拿出来。建模前是绝对不是偷看，防止数据“泄露”到modeling
过程。
我的主要问题是怎么预先选初始变量。我原先理解就是用数据一和二，初选个100左右
的变量，很多modeling的书谈到bivariate analysis，算pvalue， spearman
correlation，还有是么clustering，等等。然... 阅读全帖

s*****t
发帖数: 119

来自主题: Statistics版 - 关于AB test的疑问

significance / pvalue是一个重要参考
如果不显著，那么difference再大，也可能是noise
如果显著，那么接下来比pvalue更重要的就是difference 和 difference CI了，这些
决定了是否采用new design
所以significance是第一道门槛
对于sample size来说，一方面 sample size 可以很大，另一方面要test 的
difference一般很小，比如1％的revenue difference也是影响很大的
举个例子，如果一个metric的mean是1，std是2，在power=0.8, alpha=0.05的情况下，
要检测1%的difference in mean，那么一共需要 1200k （600k test, 600k control）
数据点才可以有足够的power。就算我们有1200k用户，产品团队是否愿意冒风险让600k
用户看到充满不确定的新页面，就另说了。
所以，sample size的大小只是相对的。

significant

G***G
发帖数: 16778

来自主题: Statistics版 - three way anova

我有一个问题，
Null hypothesis testing 当pvalue 但是当pvalue>alpha的时候，实际上，我们不能得出任何结论的。
也就是说three way interaction is not significant 严格来讲是不是不能得出。
也就是说，我们不能把模型y~1+a+b+c+ab+ab+ac+abc
简化为y~1+a+b+c+ab+ab+ac
还有一个问题，我可以继续简化这个模型吗？
把它变成
y~1+a+b+c+ab
?
谢谢！

d*******t
发帖数: 154

来自主题: DataSciences版 - p value被摈弃了？如何算confidence interval之类的东西？

同意楼上的，pvalue本来就是基于一个假设得出的数字，问题是这个假设本身是否正确
呢？nature这篇文章就是challenge滥用pvalue的现象. 下面这个漫画比较extreme(估
计作者是个bayesian)，但是其中的一句quote我认为不错 “If an event is less
likely than the test for it is accurate, then the test will incorrectly
predict the event occurred more often than it correctly predicts the event
has occurred.”
http://www.explainxkcd.com/wiki/index.php/1132:_Frequentists_vs

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标题: 做credit risk scorecard的朋友们，请进来，有问题求教
发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
可是现在越觉得有很多问题很疑惑，现在抛出来，请有经验的大侠指导。
公司是做loan lending的小公司，比较新，积累的charge off 数据4000不到，这个
跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
奇丑了，主要表现是training 和test的AUC差别很大，有很大overfitting。
现在问题来了。假设数据分成三个部分，数据一是training，数据二是test，数据三
是holdout。holdout 类似于future data，用来测试最后model 表现。所以这部分数
据只... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

y***i
发帖数: 11639

来自主题: Military版 - 大家来围观饶毅的丑态

你表演傻瓜呢是不是啊？你没看见我对他的文章的回帖？那种狗屁不通的东西，我反
驳了他都不敢回帖，就你还觉得“非常精彩”而已。
http://www.mitbbs.com/article_t1/Military/40398339_0_1.html
评论1：
发信人: yuuli (听，...听), 信区: Military
没看两句就看见这段。
“既然赞成或反对转基因的双方都已经看到了转基因作物对环境已经造成了严
重的破坏，如超级杂草的出现，生态多样性的破坏等等，这里就不作介绍了。”
这么可怕的一句胡说八道就这么搁在这里“就不作介绍了”。
你是学生物的么？
所谓的“超级杂草”，是指某些杂草不再受到特定的一两种除草剂的抑制。这种性状
根本不给这些草在自然界里生存竞争优势。把这种性状命名为“超级”杂草，好比把一
个因为环境关系训练成不喜欢吃糖的小孩称为“超人”，然后用这种文字游戏危言耸听
的说这个小孩出现，要改变人类的生存环境。
至于“对环境已经造成了严重的破坏”的“生态多样性的破坏”，你给个例子？
所以我的看法是，反转基因的学生物的不是没有，就是不幸科学素质比较低的。
评论2：
发... 阅读全帖

y***i
发帖数: 11639

来自主题: Military版 - BT毒素真的对人体无害吗？

关于文章：
P<0.06不叫显著。（肾脏大小变化）
另外一个实验如果测量多组对比，那么应该进行multiple test correction，因为你
进行多组对比时，随机产生显著的pValue的几率会变大。我看了这篇文章Walsh M.C.
etal. PLoS One,2011; 6(11): e27177，文章没有做multiple test correction。我肯
定做了的话，大部分结果都会不显著。
另外变化显著也不对应着对身体有害。免疫系统上下波动一下非常常见，所以文章才
会有对动物没有危害的结论。
你的文章的标题是：BT毒素真的对人体无害吗？你引用的那些文章，结论都是，bt蛋
白对实验动物没有任何可见危害。所以总体结论当然是，这些文章的数据不支持bt对人
体有任何可见危害。
这是你的结论？

o*****p
发帖数: 2977

来自主题: Military版 - 丹丹作为贵宾登上观礼台，热泪盈眶ZT

怎么六四的这一波全部变成人渣了？这pValue也太显著了吧。

f***e
发帖数: 5443

来自主题: USANews版 - 希拉里赢得最多选票47.7%，川普47.5%

这个差距在统计学上没有意义，Pvalue 太大
其实是加州这种非战场州很多人没有出来投票

D********r
发帖数: 135

来自主题: USANews版 - 不能禁枪，但必须禁攻击性武器

在目前手枪:长枪为295:5的比例下，如果这些mass shooting的枪支使用大概在这个比
例的置信区间内，你可以认为是随机的。但就目前的比例7:8而言（去除multiple），
无论如何是得不到这个随机分布的结论的。fisher检验的结果pvalue是10-9，证明这些
人渣选择rifle不是随机的。希望这个统计结果能说明一点问题。当然，前提是，这个3
亿枪支里面只有500万是rifle是正确的。

D***0
发帖数: 5214

来自主题: Automobile版 - 2016 small SUV的问题指数

既然在另一个楼里浪费时间码了一堆字，就留个帖大家看着也方便。计算方法遵循
laoselang的帖子，lsl问题指数=#complaints/#sales*100。 complaints数字来源于
carcomplaints对于每个车型的报告（nhtsa和carcomplaints网站提交问题的汇总），
销售数字来自goodcarbadcars的统计。虽然不能严格说当年卖的就是当年的款，不过粗
略看看还是可以的。
laoselang的帖子是关于2017的。但是今年还没过去，很多新车的问题还远没暴露出来
。所以这里开个2016的。
http://www.mitbbs.com/article_t/Automobile/35735435.html
下表是具体10辆车的总体lsl指数排名(数字从高到低）。包括了Rogue, Forester,
Escape, Rav4, CRV, Equinox, Tiguan, CX-5, Cherokee和Journey. 这10辆车除了
Tiguan其他的2016销售量都在10万以上。其余的有空慢慢加。另外binom test的结果
也一并附上，括号里面为... 阅读全帖

D***0
发帖数: 5214

来自主题: Automobile版 - 2016 small SUV的问题指数

好问题。关于差别大不大这个问题，我们可以用统计检验来说明。我添加了最简单的
binomial test的结果。列表里面有95%置信区间，和跟业界平均lsl指数的差异检验的
pvalue。一般说，95%置信区间之间不存在重叠，那么这两个样本差异是很大的，比如
equinox的0.01到0.02跟cx-5的0.11到0.15是有很大差别，但是Rouge的0.0238, 0.0359
跟Forester的0.0296, 0.0483差别就不大了。

p*******i
发帖数: 1181

来自主题: JobHunting版 - 发几个面经(5) Groupon 电面+onsite

有人问我就回答在这里了
一个硬币，无论fair与否，假设它扔一次得到head的概率是p，那么扔N次得到head的次
数和x服从Binomial Distribution B(N,p),期望是E(x)=N*p, 方差是Var(x)=N*p*(1-p)
，在大样本的时候Binomial Distribution可以近似为均值N*p,方差N*p*(1-p)的Normal
Distribution。Confidence Interval等等有公式，就不贴在这里了，如果用Normal
Dist近似的话95% confidence interval就是 Np +/- 1.96 * sqrt(Np(1-p))
而相对应的就是，拿到一个样本，N次head向上有x次，检验这个硬币扔一次出head的概
率p是不是等于某个预计值p0，就是Binomial Test. 这里有个网页介绍，还可以在线计
算（其实公式也很简单）：
http://www.quantitativeskills.com/sisa/distributions/binohlp.ht
楼主提到的那个1000次出了550次head，p0=0.5... 阅读全帖

w****w
发帖数: 521

来自主题: JobHunting版 - 请教一个算法。

一个一维的数组，长度不超过10万,其值都在0.0，0.25,0.5,0.75和1.0附近，现在要把
整个数组分段，使得每一段的平均值都靠近在上面5个值之一，同时相邻2段的T-Test
pvalue小于某个值。有什么快速的算法？假定结果肯定是存在的，人眼看得出，但有不
少noise。

p**********e
发帖数: 703

来自主题: Stock版 - 手里一大堆现金

Actually the risk of 小药股 is not as high as some others if you know some
basics, and they are even less risk than those stocks being talked and
bought and sold repetitively by people in this 股版, I tried to avoid those
stocks ...I tested it a couple of times, it is very very bad..., and now I
could understand why those Da Niu don't want to give out free picks here,
especially for those short term traders, I don't care since I am long most
of the time and only bet on bio stocks...
concerning 重仓, I ... 阅读全帖

t*******n
发帖数: 2319

来自主题: Immigration版 - Some Statistics on I-140 Applications Using trackitt.com Data (zz)

没有人发过这个吧？
我就copy了前半部分。后边还有很多统计图表，打开链接自己看，挺好玩的。
版主给我发个双黄包吧。
http://rpubs.com/columbia202/27405
Using the information that users have shared publicly on trackitt.com, I
made some graphs and did some basic hypothesis testing. In order to get the
data, I simply scraped all the webpages using R, and cleaned the data by
removing incomplete cases.
Percentage of applicants in each category, and the correspondent percentages
of accepted, pending, and denied cases
## types percentage accepted pending... 阅读全帖

t*******n
发帖数: 2319

来自主题: EB23版 - Some Statistics on I-140 Applications Using trackitt.com Da (转载)

【以下文字转载自 Immigration 讨论区】
发信人: tsingyuan (空空道人), 信区: Immigration
标题: Some Statistics on I-140 Applications Using trackitt.com Data (zz)
发信站: BBS 未名空间站 (Wed Sep 3 13:45:35 2014, 美东)
没有人发过这个吧？
我就copy了前半部分。后边还有很多统计图表，打开链接自己看，挺好玩的。
版主给我发个双黄包吧。
http://rpubs.com/columbia202/27405
Using the information that users have shared publicly on trackitt.com, I
made some graphs and did some basic hypothesis testing. In order to get the
data, I simply scraped all the webpages using R, and cleaned the data ... 阅读全帖

d****n
发帖数: 397

来自主题: Texas版 - 找德州码工矿工工作，求内推

学过概率论吧。
知道什么是偶然事件？Pvalue < 0.05。
物化和搭仪器写仪器控制程序还是挺有意思的。但是机会太少。其他化学分支无聊透顶
了。

G***G
发帖数: 16778

来自主题: Fishing版 - 物理和数学

提示一下。其实就是两个集合的相似度问题。
similiarity = C/(A+B-C)
除了以上公式，还有别的计算相似度的统计学testing方法吗？最好能得出pvalue。

t*******y
发帖数: 10477

来自主题: Fishing版 - 物理和数学

Suggestive. In fact, the problem is the similarity of the two sets.
similiarity = C / (A + B-C)
In addition to the above formula, there are other methods of calculating the
similarity of statistical testing it? Best to come pvalue.

i*****r
发帖数: 454

来自主题: Outdoors版 - 贴个每年死于雪崩人数的统计

snowmobilers 的脑残比率较高(pvalue<1e-100)

t******u
发帖数: 8

来自主题: LeisureTime版 - 中国历史上最大的思想家

这种标准文科教育出来的就这德行，举例法，就有因果关系了，其实都是扯淡。先学学
啥叫Pvalue再说。

G***G
发帖数: 16778

来自主题: Piebridge版 - 物理和数学

do you have some methods which can perform testing to obtain a pvalue of
probability that the two sets are similiar, instead of a proportion rate?

a***n
发帖数: 404

来自主题: CS版 - one sample T-test算p-value是不是忽悠人的？

我感觉 one sample T-test 算 p-value就是忽悠人的。。
就是说知道一个均值A，然后做实验，算一组sample跟这个均值A的 P-value，我觉得没
有意义啊，好像只要 sample 只要足够大，最后的p-value肯定很小啊，（因为实验均值
完全等于这个A的可能性太小了），等样本数量变大之后，是不是p-value就会变小？比
方一个大小为 50，均值为 40的样本跟A=50算出来的pvalue 明显会大于大小为50000，
但是均值也是40的样本跟A=50算出来的p-value ?

a***n
发帖数: 404

来自主题: CS版 - one sample T-test算p-value是不是忽悠人的？

可是我感觉分布如果真的未知的话，sample的大小对于 p-value的影响还是很大的啊。
我刚刚模拟了下：
mu = 2.9
sample1 = {1,2,3,4,5}
sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。
sample1和sample2 算下来的pvalue 差异太大。第一个接近1，第二个0.02
但是如果分布为止，我觉得这个p-value跟sample 的大小关系很密切，所以好像意义不
大。

a***n
发帖数: 404

来自主题: CS版 - one sample T-test算p-value是不是忽悠人的？

有没有类似的paper讨论这个问题的？记得好像有些统计学家对pvalue本身的意义，估
计也就是reject null hypothesis 的作用提出了质疑。但是忘了哪边提到的了。
Bayesian?

t*d
发帖数: 1290

来自主题: Biology版 - real data and shuffle data

俺不是科班的，随便说说。
如果你的两组数据符合回归需要的条件，比如参差正态分布，那么就不需要shuffle。
如果不是很肯定，就 shuffle 一下吧。用 shuffle 没有那么多稀奇古怪的要求。
一个小窍门，如果 shuffle 后的pvalue 没有达到显著，但是很靠近了（比如0.
055），就再shuffle 一次。一般多shuffle了几次，总有一次能达到显著的。

y***i
发帖数: 11639

来自主题: Biology版 - 这样的数据该怎么显示其的significance？

Yeah. It is significant. 2-tail ttest pValue<0.05.
问个问题：我觉得如果 d>0对大多数数据成立的话，应该可以用 1-tail吧？

(n

y***i
发帖数: 11639

来自主题: Biology版 - p< 0.05 与 p< 0.01

"那么“高2倍”这个结果的可信度是95%以上（p<0.05）。"
这个更不对了。pValue只说无差异的数据抽样的几率，和实际数据的倍数一点关系都
没有。当然对这个倍数不会有什么promise。

e*****t
发帖数: 642

来自主题: Biology版 - 大家在实践中是如何决定用t-test还是non-parametrical test呢？

当然要写p诗多少，有的时候sig level是0.05，有的时候是0.01。用不同的alpha，会
得出不同的结论，人家要看你的具体pvalue，才能判断。

y***i
发帖数: 11639

来自主题: Biology版 - hypermethyation 统计问题求教

我觉得这个数据本身就够了。画个diagram不会有疑问的，弄出个pvalue来是画蛇添
足。

A*****n
发帖数: 243

来自主题: Biology版 - 求助--基因之间表达量回归分析软件

你可以对于每个基因算其和miRNA的相关系数，或者相关性的p-value，然后把-log10(
pvalue)画在坐标轴上，用R可以考定的，不过你还要知道每个基因的染色体坐标。

LOD

i****t
发帖数: 58

来自主题: Biology版 - 统计问题，同样是两组数据比较，anova和t-test的p value不一样

你是否用了one-tail t test? t test 的pvalue 是否是anova 的一半

G***G
发帖数: 16778

来自主题: Biology版 - false discovery rate

统计在没有真集之前，难道不是伪科学吗？
google是最好的例子。他的data mining 算法就是基于统计学的。
但是人们发现很多搜索不准。
但是人们发现google是搜索最准的一个engine。同事人们也认识到，
google的搜索引擎当中，人为输入了很多东西。
也就是说加入了 if else 语句，这种和data mining 并存的判断。
if 你输入google，then 第一条记录就是google.com
而不是经过统计学分析，google是pvalue最低的一条记录。
我们今天讨论的和真伪科学无关。 F=Ma 谁敢说它不对？
但是当下一个牛顿出现的时候，它绝对是错误的了。

n******7
发帖数: 12463

来自主题: Biology版 - 请教一个P值稳定性的问题

Thanks. 一直以为confidence interval跟pv是直接关联的，我再看看
那要全面描述一个比较的结果，岂不需要3个数据了：pvalue,confidence interval 还
有effect size (e.g. fold change， relative enrichment，etc)

p********6
发帖数: 1339

来自主题: Biology版 - 没有统计常识的搞生物就是捣糨糊

弄一堆p-value出来，也是生物学家搞出来的。统计学家对p-value的关注比你想象的小
得多。倒是不懂统计的人才喜欢用一个pvalue来说明一切。

j*p
发帖数: 411

来自主题: Biology版 - Microarray的数据呈现

不常见。有可能是数据不好，比如说作者想要研究的那些基因，control/treat 表达量
都很低，fold change也不大，但是control和treat的标准差很小。假如按照常规的方
法show fold change，作者根本无法claim他/她研究的基因有显著性，很可以啥都没有
，于是就改show log（pvalue），来显示显著性。非常misleading。

j*p
发帖数: 411

来自主题: Biology版 - RNA-seq 表达量问题

1. RPKM = 1 约等于 1 copy/cell. 同样是rpkm=1，如果这个是从100M reads出来的，
可信度比从10M来的高。同时，RPKM=1可以通过单细胞FISH验证。
2. qPCR 灵敏度比100M RNAseq高，能够validate RPKM=0.1左右，就是cycle要多些。
3. 即使没有replicate，也可以做统计，cufflinks, DESeq 都有这样的选项（简单的
fisher-exact test），但得出的pvalue显然没有那些有replicate的来得靠谱。
4. 做表达量的时候，通常会用 log2(RPKM+1)，然后做fold change的时候，会用log2
的差，+1既是为了去0，避免fold change = 无穷大，也是为了减少对那些表达量很小
的RNA的fold change的over estimation。

p*******i
发帖数: 1181

来自主题: Biology版 - GSK中国研发中心总裁臧敬五造假被调查zz

这个倒不是大问题，pvalue到了<0.01的level上数值已经不那么重要了，有的简易统计
软件就只保留小数点后2位，这种一般不算错误。

y***i
发帖数: 11639

来自主题: Biology版 - BT毒素威胁人类健康吗？

"而几乎所有的这些文中都表明，食用BT的食物，都会影响某些生理指标。"你没有统计
知识。这所有文中都表明，食用BT的食物，没有统计学数据支持他们会影响生理指标。
这是
这些pvalue 经过multiple test correctio n基本上都不会是显著差异。

aspartateaminotransferase
改变
组包
GM

y***i
发帖数: 11639

来自主题: Biology版 - BT毒素威胁人类健康吗？

"虽然作者宣称没统计差异，但这个趋势是很明显的".
---- 既然没有统计差异，你还宣称什么趋势就是胡说了。
“重复一遍：既然是短期试验，我更关心那些不为人注意的潜在变化趋势。”
你关心的是编造出和数据不一致的结论。
为啥这么说？人家pValue = 0.1, =0.06,数据说明没有统计数据支持，“不为人注意
”“潜在”这些文字游戏也不能掩盖你的“趋势”是个毫无数据支持，却想伪造成被数
据支持的谎言。无论你写得怎么含情脉脉也不能掩饰这一点。

y***i
发帖数: 11639

来自主题: Biology版 - BT毒素威胁人类健康吗？

y***i
发帖数: 11639

来自主题: Biology版 - BT毒素威胁人类健康吗？

y***i
发帖数: 11639

来自主题: Biology版 - Gene ontology和GSEA分析是不是糊弄人的啊？

你觉得GSEA和go或者IPA比怎么样？
我觉得没有独立于基因表达的数据，用fold change/pValue去推peak，机理上很没道
理。没理由认为它比Go或者IPA强。

f**********e
发帖数: 1994

来自主题: Biology版 - 请教Nature上一篇关于pValue的短文

http://www.stat.duke.edu/courses/Spring10/sta122/Labs/Lab6.pdf

D*a
发帖数: 6830

来自主题: Biology版 - 请教Nature上一篇关于pValue的短文

不知道详细计算过程，我是这么理解的。
假如你之前有一些数据认为你可能有一个effect，然后你做了补充实验发现p=0.05
这个时候并不是说effect就是真的，而只是说，如果你之前有50%的把握这个effect是
真的，现在你的把握变成了71%而已，还有29%的可能性是数据的随机性让你蒙上了。如
果你之前已经有90%的把握说这个effect是真的，那么现在的把握变成了96%。
其实你的把握并没有提高多少。
错了的话请指正。

y***i
发帖数: 11639

来自主题: Biology版 - 请教Nature上一篇关于pValue的短文

呃。。。。为啥 0.5的把握-->29%的随机性。为啥主观性的把握，能影响随机性的比
例？

y***i
发帖数: 11639

来自主题: Biology版 - 请教Nature上一篇关于pValue的短文

多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
下。

D*a
发帖数: 6830

来自主题: Biology版 - 请教Nature上一篇关于pValue的短文

不是主观性的把握，是有一定的证据推理得到的一个把握
算数咋算的，就不要问我了......

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天