a*********3 发帖数: 660 | 1 定义 definition变量 variable面积 area直径 diameter半径 radius公式 formula
单价 unit price范围 range/scope/extent集合 set法则 principle本金 principal利
率 interest rate利息 interest单利 simple interest复利 compound interest正数
positive number负数 negative number解析式 analytic expression分类讨论
classified discussion性质 nature (不是很确定)奇函数 odd function偶函数
even function对称 symmetric坐标原点 origin单调性 monotonicity(不是很确定)
任意 random周期性 periodic 有界性 boundedness 数学 mathematics, maths(BrE)
, math(AmE) 公理 axiom 定理 theorem 计算 calculation 运算 operat... 阅读全帖 |
|
g****x 发帖数: 223 | 2 从我知道的来看,数学的LECTURER 的工资很低,估计在UNH,也就3万左右。更别提他
打过很多年LABOR。能有几个人可以忍受贫穷长达二十年啊WHILE WITH ALMOST NO HOPE
?估计普通的马工在NH的平
均数是5或6万。他得需要多么强大的毅力去抵抗这些诱惑啊。 |
|
j*****0 发帖数: 10 | 3
请问我的NBME 6做完后显示 280,这个换算成USMLE 三位数只有157,你说的234是NBME
的分数还
是换算成USMLE 三位数的呢?好像NBME的分数是210-790之间,均数是500,我这个280
应该很低
吧,因为我错了很多题,每个section大概错了20个呢。请大家指点。。。 |
|
c*******y 发帖数: 329 | 4 评估弱项是提高成绩过程中的重要一环, 加强短板科目是高性价比的方法, 把有限时
间优先投向薄弱科目。step 2 NBME form 有限,而且每个form的题量亦有限,我是以
UW 的分析来评估的, 其优点是比较全面, 因为它所统计的sample 多, 而且有peer
performance data 作为比较。
评估弱项时, 应以UW 分析的percentile 为依据,而不是 correction rate, 因为两
者之间有不同的含义,记得有一段时间, 我的各科正确率基本都在80-90% 之间(当然
是重复几次之后),但percentile完全不同, 内科几乎在95%以上,而小科大概是在
70-80% 之间, 尤其是精神科,correction rate不算太低, 但percentile大约只是60
-70%; 这说明虽然内科和精神科的正确率接近,但在所有考生中,你所处 level, 是
完全不同的,内科是 top 5, 而精神科仅仅略好于均数。所以,如果想进一步提高内科
成绩, 相当于与top 5 的考生竞赛; 而提高精神科成绩则相对容易些。 |
|
s******n 发帖数: 129 | 5 【 以下文字转载自 Military 讨论区 】
发信人: seracron (morningstar), 信区: Military
标 题: 尼安德特人是不是一般人智商不行,但是天才多?
发信站: BBS 未名空间站 (Sun Jan 27 20:32:57 2013, 美东)
尼安德特人颅骨容量约 1,200-1,750 cm³(现代人约 1,400-1,600 cm³)
取平均数:尼人 1475 现代人 1500 |
|
t**********d 发帖数: 638 | 6 基本同意。娃生下来,体质,智力,容貌等等,八九成就定了。
问题是百分之九十plus 的人群都是均数范围内。
Outliers: The Story of Success, 作者Malcolm_Gladwell在
书里反复说的10 thousand hours rule,就是"推"的指导思想吧。
Intel
Tes
Phelps
tests,
acad |
|
t**********d 发帖数: 638 | 7 基本同意。娃生下来,体质,智力,容貌等等,八九成就定了。
问题是百分之九十plus 的人群都是均数范围内。
Outliers: The Story of Success, 作者Malcolm_Gladwell在
书里反复说的10 thousand hours rule,就是"推"的指导思想吧。
Intel
Tes
Phelps
tests,
acad |
|
|
g****x 发帖数: 223 | 9 从我知道的来看,数学的LECTURER 的工资很低,估计在UNH,也就3万左右。更别提他
打过很多年LABOR。能有几个人可以忍受贫穷长达二十年啊?估计普通的马工在NH的平
均数是5或6万。他得需要多么强大的毅力去抵抗这些诱惑啊。
indeed |
|
g****t 发帖数: 31659 | 10 他一年只需要教4门课.
和普林斯顿教授的教课任务一样,都不重.
也没有孩子.作科研爽的.
你觉得人家贫穷,其实这个收入并不穷.
postdoc比他收入少的,估计也不少.
phd那就更多了.
人家过的是嬉皮士生活,说不定还来个地下数学party,
其中之乐,别人可能不理解.但要说生活压力,其实是不大的.
reedit上转载了他描述的灵感一现的片断,底下一对老美说,肯定是high了.
从我知道的来看,数学的LECTURER 的工资很低,估计在UNH,也就3万左右。更别提他
打过很多年LABOR。能有几个人可以忍受贫穷长达二十年啊?估计普通的马工在NH的平
均数是5或6万。他得需要多么强大的毅力去抵抗这些诱惑啊。
indeed |
|
c****y 发帖数: 3592 | 11 我想用来控制风险的,1代表风险最大,0代表没有风险。需要中间平稳是因为如果在平
均数附近浮动,那我可以接受-就是不改动风险太多。 但是如果超出了一定范围,我就
要改动风险。 两头平稳的目的是如果超过太多,那我也不care了,比如说x=5的时候风
险是0.9, x=10的时候风险是0.92, 因为x>5对我来说已经不太能接受了,所以5和10一
视同仁 |
|
h******u 发帖数: 80 | 12 我在我的处女贴中粗糙的跟大家分享了一下我对国内金融系统中各类机构的生态环
境的看法和相应的工作机会,不知道有没有能够给大家提供一些有用的信息,但非常荣
幸收到了一些邮件和站内信,结识了一些朋友,谢谢你们能耐着性子看完我枯燥的长篇
大论并不忘给我一些反馈。
我感激于在这边金融圈的朋友们在我初来美国过程中给我的帮助,想跟大家分享一
下我数年从业过程中对国内金融市场飞速发展的粗浅认识,同时也算是在职业生涯的间
歇期对过去感悟的个人总结。但我既没有写文章的功底,也没混过论坛,难免又臭又长
,不知所云,只能尽我所能尽量描画一个我眼中的中国金融市场给大家,希望能让对国
内市场感兴趣但又无暇关注的精英们在耐着性子看完后除了骂娘还能有一点点收获。我
目前还没有一个成型的主线,想到哪说到哪,如果有朋友有特别感兴趣的话题咱们也可
以延展。
这次我想跟大家分享一下:
中国的地方债务警报、信用体系和房价为什么不降
美国底特律市的破产和看上去不可避免的债务违约震惊了国内的金融民工们,一如
2008年加州政府深陷债务危机的消息,传说中的“1美元房”也让不少金融民工们幻想
着... 阅读全帖 |
|
l*********s 发帖数: 5409 | 13 【 以下文字转载自 Biology 讨论区 】
发信人: himeng (mkong), 信区: Biology
标 题: 问个统计问题
发信站: BBS 未名空间站 (Mon Nov 16 13:07:44 2009, 美东)
统计学的不好,请教一下。
现在想把两组计数资料(两种不同基因型的小鼠移植瘤体积)T检验。在这两组数据中
,有个别的数值明显比其他的数值大或者小,很有可能是由于实验失误造成的(注射肿
瘤细胞时可能有失误)。
在不做任何修改的情况下,由于标准差比较大,虽然两组均数表面上看有差别,但经T
检验,两组无明显差别。
而如果把两组中差异较大的数据删掉,然后T检验,两组有明显差异。
So, 问题是,把很可能由于实验失误造成的个别数据排除在统计外,得到的统计结果
科不科学?可不可信? |
|
a***r 发帖数: 420 | 14 针对这个具体问题,我觉得更麻烦的是K-means clustering是对num的(?)
而我的dataset里其实是char,一堆点,点之间有距离,但是不能加减,更没有所谓平
均数
啊啊啊啊,纠结。。。。 |
|
T*******I 发帖数: 5138 | 15 我认为你错了。t和t^2是两个不同的随机变量,它们的变异性不一样,因而CI的估计也
不一样,且我们没有任何样本基础可以假定[CI(t)]^2 = CI(t^2)。从上面我给出的X和
Y(Y=X^2)的实例中不难看出,[mean(X)]^2 不等于mean(Y),因而,我们也就不能用
[CI(mean(X))]^2来作为CI(mean(Y)),两者之间不存在这样的函数关系。
所谓的频率主义就是经验主义,是一种从经验中抽象出理性的哲学思想。这正是统计学
理论和方法的基石。所谓的贝叶斯主义是一种主观先验主义,是一种从先验理性到客观
经验的哲学思想。LZ提出的问题正是基于这样的一种先验的数学理性,而这个理性根本
不存在,因为根据算术均数和可信区间的算法定义,他所期望的等式根本不成立。 |
|
T*******I 发帖数: 5138 | 16 难道SAS就不能做算法吗?
人们用一般数学算法构造统计算法,例如算术均数、回归、方差齐性检验、正态性检验
、t分布概率函数、F分布概率函数、卡方概率函数,等等,所有这些都是构造好了的统
计算法或对数据集的函数,为什么不可以用这些统计算法作为基本算法构造一个数据分
析的解决方案,即更高级的统计算法呢?
SAS不仅有基本的数学函数,更有丰富的统计算法或统计“函数”,当然可以被用来作
算法构造!!这么简单的逻辑都不明白么? |
|
T*******I 发帖数: 5138 | 17 我认为你混淆了两类不同的概率模型。我所说的随意选择指的是等概率模型,而样本均
数所发生的概率空间与任何单一个体的概率发生空间不是等概率模型,因而不能用随意
选择来得到样本均数。
这个10000次的确立完全没有任何数学上的和哲学上的意义。从数学的角度看,整数具
有无穷个,因此,选择任何一个整数都没有意义,因为,每个整数在这里的决定意义都
趋于0. 这是什么意思呢?从哲学的角度看,就是没有意义。
我们不妨把LZ的问题中所有的两两组和列出来,如果这个组合的总数是N, 那么,每一对
组合的发生概率都是1/N。 你的目的就是要从N个中取一个,那么,任取一个就是了。 |
|
T*******I 发帖数: 5138 | 18 对不起。确实挺让人烦的,因为思考问题时,很多概念是自然关联而形成的,而不是遵
循现有的概念系统。
所谓mathematical expectation就是一般所说的根据样本得到的样本期望,例如样本均
数等。
而总体期望也就因此自然而然地相对于样本期望而形成。总体参数有很多,总体期望只
是其中的一个,相对于样本期望而抽象形成,总体均数就是总体期望的一个具体形式。
的我 |
|
A*******s 发帖数: 3942 | 19 “由于我试图提出的解决方案引入了随机权重测量,所以,我试图找到在这个领域作出
过开创性工作的先辈们。然而,我暂时失败了。我只能从一篇发表于1824年的关于天文
学观察的文章里发现在那之前就已经有人在使用加权均数了。加权统计量是统计学历史
上一个伟大的发现。它在我们对世界的认识中引入了可变“重要性”的概念,从而使得
基于此上的估计更加稳定和可靠。看来,我暂时只能以此无名氏为师。”
你这个加权是怎么加权的?统计学里面无数方法都有weighted的处理方法。我建议你要
是想做研究的话,1.得先学好英语;2.得先会用google发现前人做了啥。3.老老实实从
probability,math statistics,linear theory从头学起,你这数学水平就别想修啥
analysis和measure theory了。
至于piecewise regression,这种用additive local models代替一般的global linear
regression models,来接近真实的nonliear model的思想,早就被人深耕细作了几十
年了。不好说你的东西100%是错的... 阅读全帖 |
|
A*******s 发帖数: 3942 | 20 只要一讨论到细节,Master Bation马上就跑得比狗还快了。还说我绕弯子,难道不是
你问我两种方法有何不同么?我已经屈尊给你指出一条明路了--算interval estimate。
均数
识。
式。 |
|
T*******I 发帖数: 5138 | 21 这个standard error指的是根据这次抽样和模型假设所建立的模型参数(即beta值)的
本次抽样误差,亦即,如果以本次抽样得到的beta来估计未知总体的beta时可能发生的
一个单位的标准误差。这与用样本分布的均数估计总体分布的期望是同一逻辑。
在统计学中,任何被估计的总体参数都是由样本的一个相应统计量来估计的,因而都应
该有一个抽样误差的估计。没有抽样误差的估计仅仅是一个随机的点估计,其可信度几
乎为0,但是,一个有着抽样误差估计的统计量却是一个可信度可以达到足够高的程度
的估计。然而,关于抽样误差的估计并非有一个统一的、固定不变的方法,而是有着不
同定义,因此,任何抽样误差指的是在相应定义下的估计。定义发生改变,计算方法就
会发生改变,从而估计值就会不同。理论上,任何人都可以对抽样误差给出一个自己认
为合理的定义,但基于标准差和样本量基础上的估计是统计学史上由尼曼等首先提出的
,因此,大家基本都遵循这个逻辑来构造关于统计量的标准误的算法。这个思想的提出
在统计学史上具有划时代的意义。
beta |
|
y****d 发帖数: 432 | 22 简单说明:
有操作演示、也有讲解,还是不错的(是MM在讲,还有背景音乐,学着也不累)
包含内容:
第一部分 数据处理
第二部分 描述性统计
第三部分 数据分析
第四部分 因素分析
第五部分 回归分析
第六部分 相关分析
第七部分 专题讲座
详细介绍:
第一部分 数据处理
数据检查
数据输入
数据整理
第二部分 描述性统计
连续性变量的统计
非连续性变量的描述统计
正态性检验
第三部分 数据分析
方差分析
项目分析
信态分析
第四部分 因素分析
因素分析简介
因素分析原理
因素分析操作说明
因素分析实例
第五部分 回归分析
回归分析相关概念
回归模型选择
回归模型应用-路径分析
回归模型诊断
第六部分 相关分析
相关系数与数据类型
相关与回归
相关实例演示
相关散点图
第七部分 专题讲座
正态性检验
缺失值处理
标准差与标准误
卡方检验
t检验_方差分析_回归分析的综合比较
spss制图
集中量与频数分布的形态关系
均数比较
七种常用交互式绘图
四种重要抽样分布图
随机变量和固定变量
随机数生成
统计决断的两类错误及其控制
因素负荷矩阵旋转
原始分转化为... 阅读全帖 |
|
T*******I 发帖数: 5138 | 23 所以,我说我的问题会令那些数学头脑们抓狂!我也就因此而理解为什么Hegel轻视他
同时代的数学家们。
之所以称一个统计量是一个随机常量,是因为它对其被给定的样本本身来说是一个常量
,而样本对其所来自的总体而言则是一个随机子集。如果说统计量是一个随机变量,这
是没有明确指向的一个模糊的说法,是不准确的。显然,一个样本的均数对于该样本自
己来说是一个不变的量,而不是可变的量。 |
|
T*******I 发帖数: 5138 | 24 你说的基本正确,但不全是。我的文章之所以一再被拒,有非常深刻的原因。实际上我
的算法很简单,任何有着高中数学水准而受过统计学基本训练的人都能看懂,但其完整
而正确的分析逻辑却具有重大的意义,因为它预示着最优化和spline等在统计学理论和
实践中的彻底失败。
因此,我也就知道了我的文章中存在着一个非常大的统计学的理论和实践的问题以及几
个值得进一步改进的小地方,这就是,如果最优化被彻底放弃了,有什么更好的办法来
取代它?毕竟,它被用来做统计决策已经很多年了,人们也在这个领域形成了一个比较
一致的思维模式,放弃它的时候必须是有一个最好的替代方案出现的时候。我相信JSAS
和Annals of Statistics的主编对我的文章有深刻的洞悉。他们绝不是平庸之辈。(
JSAS的主编在我最后一次发稿的评论中只有一句话:此文不适合发表。这篇文章就是目
前JSM上可以通过因特网搜到的那篇文章。在JASA的稿件库里是全文。)
尽管我已经在2009年的文章里提出了“两个相互关联的随机变量(X和Y)的期望之间的
对应是唯一确定的对应”,而对应于ext(X)[即min(X)或max(X)]的仅仅是Y的一... 阅读全帖 |
|
b*********n 发帖数: 2975 | 25 忠告:民科需谨慎采取的科学态度
那些在质疑相对论,进化论,万有引力等,并不懈的与公理斗争这个方向上的
人,
其实也是民科不能得到推广的原因之一,因为他们违背了通常的科学探索的过程。
这里
指的不是“找到热门、经典的物理理论,提出自己的理论推翻该理论,不证实或用
哲学
方法证实该物理理论,写书、发资料、邀请记者采访,往非专业大众媒体投稿”这
个过
程有问题,怀疑经典的精神是需要保持的,但在进行研究的时候还应当换个方法,
毕竟
我们所有的科学成果并不是在首先就否定前人的基础上进行的,最多也是怀疑并从
新的
角度用实例证明自己的观点,例如现在化学的开创者波义耳在他的著作《怀疑派的
化学
家》所做的。事实上每一个否定前人的科学成果是在首先尊重并同意前人的观点上
才被
发现出来的,甚至有的是在论证和引用前人成果进行实验等行为的时候才发现实际
观测
与前人的理论有出入,并在反复研究后(这时候的研究态度还不是为了证明前人错
了,
而是重新审视自己是否错误)才发现前人的错误,例如洛伦兹当年按照伽利略变换
计算
发现和实际出入太大了,于是自创洛伦兹变换,而前者就作为了新变换中物体速度
远小
于光速的情况... 阅读全帖 |
|
T*******I 发帖数: 5138 | 26 A new horizon of Statistics:
Ligong Chen and his Self-weight Curves
版上有人对我在统计学里造新词满怀……。是的,我确实造了几个新词,诸如
1)随机常量(random constant, 事实上,我们每个人的生命的每一刻就是一个random
constant。这个生命的全部属性在那一刻具有不变的确定性,但却具有随机性。)
2)常量期望(constant expectation, 即一个常量自己,或一个不变量。当我们对一个存在的最大期望等于对它的最小期望时,它就是一个不变量,或常量。它是随机变量的对立面。)
3)随机对应(random correspondence, 严格地说,这个词不是我造的。它早就存在于人们的思维活动中,只不过我可能是第一个尝试了从数学的角度给出一个严格定义的人,尽管我的定义所采用的数学表述语言和格式并不100%的严谨,但我给出的定义的逻辑思路应该是可行的)
4)全域回归(fullwise regression,这个词是相对于分段回归(pi... 阅读全帖 |
|
T*******I 发帖数: 5138 | 27 我可能没有说明白而引起了你的误会。
我所说的自加权期望,不是自加权自己的期望,而是说的对随机变量X采用其自加权来
估计其分布的期望。这是在一个二维空间里估计X的分布期望,因为它的自加权具有可
测性和变异性。
所谓的算术均数是在一维空间上对X的分布期望做出的简单估计。它的理论基础是样本
中的每个点对分布期望的贡献相同(以1来表示这种贡献是最简单的了)。
我也复习过了当前的统计学,那里面没有我所提出的自加权的概念。 |
|
T*******I 发帖数: 5138 | 28 如果你用了一个服从正态分布的全样本数据计算出了一个算术均数,你就会知道应该没
有比这个期望更好的了;如果你用我的算法分析了一个样本,你就会知道所谓的cross
validation是否还有必要?
在现行的分析逻辑和算法下,cross validation是迫不得已的手段,因为你们估计出来的是一个极不可靠、极不稳定的随机点模型。 |
|
T*******I 发帖数: 5138 | 29 我不怀疑人们在探索数据分析的过程中会有新的发现。人们可以发现很多很多现象。比
如我在定义了点对点的差异性和相似性后,我可以在此基础上为样本中的每一个随机点
定义成百上千个不同的自权重,但只有一个自权重是无偏的,即随机变量X在该自权重
基础上的自加权期望与其自权重曲线的顶点之间的吻合程度在任意分布形态下最高。这
表明除此之外的其它成百上千个自权重没有意义,因为它们都拥有较大的偏差。
这是什么原因呢?你要是想弄清楚这个问题,你需要学习使用辩证法,它会给你一个严
谨的解释。如果你不懂辩证法,你就会以为只要是自己发现的客观存在着的东西,就一
定是真理。遗憾的是,这是一个谬论。
举个最简单的例子。一辆车子在路上行驶,司机开车的速度是80miles/h。在围绕该车
360度范围内以目视观察它的速度,每一个角度上得到的速度都是不一样的,但对于观
察者来说都是真实的,而车子的速度却不会因为观察角度的不同而改变,它的速度就是
80miles/h。
我想说的是,我从来不说人云亦云的话,不做人行亦行的事,除非我经过了认真的思考
后发现它没有任何我所能理解的问题。对于我来说,任何统计方法都是值得怀疑的,即
使... 阅读全帖 |
|
T*******I 发帖数: 5138 | 30 老实说,我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有
关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领
域的文献,发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关,
我估计的是样本的期望临界点,即是用全部样本估计的一个充分的期望估计,没有任何
样本信息的损失,正如我们用一个正态随机变量的全部观察值计算其算术均数一样。
当一个outlier出现在样本中时,用我的方法,它的权重会接近于0。如果你真正看懂了
我所设计的三分迭代搜索方法以及权重的定义的话,你就会明白这一点。
我觉得我是在遵循概率论的基本概念系统(虽然我不是透彻地理解它)建立自己的算法
,这就是力图为每个随机临界点在全样本空间里(即使用全部实测样本点对每个临界点
进行搜索,亦即,每个实测样本点对期望临界点的贡献全部考虑进来了,没有任何损失
)构建一个可测空间、定义权重及其可测性、计算加权期望估计未知临界点。遗憾的是
,在其他人的方法里找不到这样的分析逻辑和算法。他们根本不考虑临界点的可测空间。
感。
给你
至少 |
|
T*******I 发帖数: 5138 | 31 精算兄,谢谢你的执著的诚意。
我记得以前学统计的时候在一本数理统计书上讲过充分统计量的概念,例如用全样本计
算的算术均数就是一个充分统计量。所以,我就以为凡是用全样本构建的统计量就应该
可以被认为是一个充分统计量。如果我的理解上有错,请指正。多谢了。
至于CV,看来我真的需要进一步深入了解。待有了心得再和你交流。 |
|
T*******I 发帖数: 5138 | 32 这么说就是没诚意了。既然如此,我和你之间的任何讨论都没必要。因为这是统计学的起点和最基础的概念。如果不能在这个起点上达成一致,就没必要进一步谈了。
我的答案是:样本数据库里的第一行(姓名、性别和年龄)是随机变量;其它的不是随机变量,而是随机常量。
而在你们的概念系统中,第一行什么也不是,从第2行到第5行只有在总体中才是随机变量,而在样本中它们是fixed。这就是最优化思想的根源。因为既然样本是fixed,所以,最小的min(CR)就可以决定临界模型。这是一个错误,因为样本是总体的一个随机子集。由一个样本计算出来的min(CR)所对应的m7是一个极不确定的随机对应,而非在样本基础上的一个可期望的对应。恰如你不能用样本中的最高身高去确定体重的样本均数一样。一个样本中的最高身高是随机地来自总体的一个点测量,它在总体中对应着的是一个随机的体重属性的表达。总体中的这个对应被随机地映射到了一个随机的样本中。保持着其原始的属性:即随机性或不可期望性。
你能说我说错了吗? |
|
T*******I 发帖数: 5138 | 33 我会算一个结果给大家。我有已经编好的程序。非常简单。
但问题是,只算一个随机样本是远远不够的。我们需要在随机模拟的条件下验证它。所
谓随机模拟,就是假如我们用任意一种方法算出一个样本的临界点后,将该样本分为两
段,计算出每一段的X的均数和标准差,并拟合出两段线性模型,然后用这些已知条件
,即以上述临界点和分段模型为真实值,重新模拟样本,模拟时每段设定一致的样本量
。假如由此生成500个随机样本,每个样本中第一段n1=15, 第二段n2=20。需要注意的
是,需要适当扩大由每段样本计算的SD,这样,模拟时才能生成两段相互叠加的模拟样
本,否则总是相互分离的。
模拟样本生成后,再用大家熟悉的各种方法对每一个模拟样本进行分段分析。我们需要
知道的是,各种方法是否在其程序中设定了条件,如果有,就必须去除这些设定,因为
它们是人为设定的确定性准则,而随机系统是不可能按照这些人为的准则运作的。我的
方法无任何条件设定。
如果说大家以前对我反复提出过CV的问题,那么,这个随机模拟试验可以看成是对每种
方法的一个CV。我绝对自信我的方法将给你一个关于500个临界点的极其稳定、分布收
敛极好的估计结果。... 阅读全帖 |
|
T*******I 发帖数: 5138 | 34 我准备接受goldmember的挑战公布Code。
SAS Code (Part I): Simulation for a Dichotomic Regression wirh Julious's Sample
我要公布的code仅仅是一个关于dichotomic regression simulation的SAS code。是我在4年多前写的。仅仅作了一点小小的更改。我的code写得很笨拙,但it runs good。请大家保存好你的500个随机样本。以备后用。
我将分段公布,这里是第一部分,data generation and random check.
这个例子是想要告诉大家,如果你的分析逻辑正确,根本不需要simulation。
正如我对goldmember说过,在接受这个挑战前,让我问大家几个问题:
如果总体中存在一个临界点,你认为样本临界模型一定在临界点处连续吗?如果你的回答是肯定的,你的哲学的或/和数学和/或统计学的逻辑基础是什么?然后再问问你自己,总体给了你连续性的保证吗?你可以在样本基础上假设总体的连续性吗?为什么?
大家回答了我的这几个问题后我再公布后面的正式算法... 阅读全帖 |
|
T*******I 发帖数: 5138 | 35 我的想法不是模糊的,而是非常清晰的。
给定一个总体的分布期望u,抽样所得的样本均数也不恰好就等于u。样本对总体的代表
性需要借助概率进行推断。这是统计学的一个基本常识。同理,即使总体中的回归空间
是一个连续的空间,在抽样临界点处的分段模型也不会恰好就是连续的,这也需要借助
概率进行推断。
我将概率推断的基本逻辑和数学算法引入到分段回归分析中以取代主观的强制性假设,
我这样做错了吗?那种没有概率论支持的“统计”方法论是正确的吗?
如果"不存在函数关系的左右极限问题", 而你所批判的"经典数学"里的和强制模型条件
里的就是指"函数关系的左右极限相等"的概念. 那末你在批判不存在的概念?
好吧. 你完全可以针对你的医学数据, 抛弃书本上写的"强制连续性的假设"的条件, 这
种做法在具体工作中很常见, 你如果能很好的把你的工作和数据处理得更好, 这么做就
是了. 你不过是没有照本宣科的做工作罢了, 对于实际工作的技术人员来说, 这个一点
都不新鲜, 对于算法做了一点小改进工作. 就上升到哲学高度, 甚至动摇整个统计学基
础的高度? 其实真正的哲学思维和好的工作, 和严密的数学推理有相通的道理... 阅读全帖 |
|
T*******I 发帖数: 5138 | 36 我的simulation是在一位PhD的统计学教授的指导下做的。
第一步是给定一个已知的两分段总体模型和临界点,在每段模型内均给定X的均数、标
准差以及与Y的回归关系,然后用SAS生成500个随机样本,每个样本含35对观察值(X,
Y),分别由上述两段模型随机生成,模拟时每段的样本量分别是15和20。
第二步是在每个随机样本中用加权法搜索临界点,从而得到500个随机临界点。
第三步是用最优化和强制连续搜索临界点,也得到500个随机临界点。
第四步是描述上述两组各500个随机临界点的分布并作出比较。
当然,模拟试验的SAS程序是我自己编的,由于当时我的macro编程能力很差,所以程序
写得很繁琐。现在写三分法code时,可以写得非常简单,且有通用性,只需修改路径、
数据库名、模型名称、变量集等极少数几项就可以运行并得到结果。 |
|
T*******I 发帖数: 5138 | 37 民科请问,t-test的诞生与现在所谓的概率论和数理统计理论有关吗?或者说,t-test
这个方法是从现在人们所熟悉的概率论和数理统计理论等的定理系统推导出来的吗?或
者说,没有概率论和数理统计理论便没有t-test法吗?
历史事实是,t-test的诞生早于概论论的提出,而概率论的建立是现在所谓的数理统计
的前提。
再问,统计学需要数学式的证明吗?例如,有谁能证明样本的算术平均数x-bar是关于
总体均数mu的无偏估计,就像现在的每一本数理统计教材所阐述的那样?如果连总体期
望的样本估计都无法证明,在统计学里我们还能证明什么? |
|
h***i 发帖数: 3844 | 38 统计学里一切行为就是在用一把尺子测量某个对象。 证明一下?
一个基本的历史事实是,t-test的诞生早于概率论的提出, Reference?
当皮尔逊和戈赛特等搞出自己的方法论并将自己的研究论文提交给当时的数学期刊时,
一概被拒,且受尽讥讽. pearson和edgeworth这对活宝是喜欢互相对着干,不过受尽讥
讽从来没听过,有什么reference么?
再问,统计学需要数学式的证明吗? YES
例如,有谁能证明样本的算术平均数x-bar是关于总体均数mu的无偏估计,就像现在的
每一本数理统计教材所阐述的那样? (the math stat book has the standard proof)
如果连总体期望的样本估计都无法证明 (I do not think so),
在统计学里我们还能证明什么? ( we can prove a lot of things) |
|
l******t 发帖数: 96 | 39 逻辑破绽?
(样本的算术均数 = 一个可知的存在)
这个就错了,连假设都错了结论怎样都不需要讨论了 |
|
T*******I 发帖数: 5138 | 40 好吧,严谨地应该是
(一个样本的算术均数 = 一个可知的存在)
除此之外,还有何破绽?请指出。 |
|
l******t 发帖数: 96 | 41 这种认知也只有你才确信
连期望,抽样这种基本概念都没弄明白然后就说样本均数是一个可知量的,我就只能呵
呵了 |
|
g*****o 发帖数: 812 | 42 对啊,贝叶斯不就是在有先验的时候用么
没叫你没有先验用啊,没有先验不会假设均匀分布吗,均匀分布的密度就是个常数,对
结果没有影响啊
你tm不懂装什么懂啊,你是不是都看不懂常数符号c啊?你tm是不是觉得统计只要算平
均数就可以了?真简单哦,怎么全世界人都没想到呢。你快点写信给奥巴马习近平普京
,他们一定给你搬个宇宙无敌大奖。 |
|
J***3 发帖数: 289 | 43 看来你每次试验得到的3个数值不能看做独立的,因此取平均数比较合理.
?b |
|
b*****d 发帖数: 7166 | 44 【 以下文字转载自 Military 讨论区 】
发信人: qed (小白兔终于熬成了大灰狼), 信区: Military
标 题: 琐男来看了:中国杀人蜂
发信站: BBS 未名空间站 (Mon Sep 30 21:41:17 2013, 美东)
参考消息网9月29日报道 据陕西省安康市政府介绍,在过去3个月里,当地已有至少19
人被胡蜂(又名黄蜂)蜇死。致命胡蜂中有可能包括世界上体型最大的大虎头蜂,而安
康市显然是最近一轮蜂灾的伤亡重灾区。
据美国有线电视新闻国际公司网站9月27日报道,当地官员表示,从7月1日至今,安康
市总共有583人被蜇,目前仍有70名患者在医院接受治疗。
陈昌林在收割稻谷时被胡蜂袭击,随后被送进了医院。他说:“我跑向路边呼救,可黄
蜂一直追了200米,围着我蜇了将近3分钟……”
陈昌林表示,他见一对母子被黄蜂包围准备去救助,听说这对母子后来都因蜂毒发作死
亡。
另一位受害者说:“你越跑,它们就越追着你。”这位患者的肾脏遭到蜂毒侵袭。据当
地媒体报道,当他被送到医院时尿液和酱油一个颜色。
本月早些时候,广西有29人在一次胡蜂蜇人事件中受伤,伤者中包括22名6... 阅读全帖 |
|
o******e 发帖数: 1761 | 45 不会在MITBBS上发图。。。所以只能上text了。。。
原帖链接: http://blog.renren.com/blog/bp/Q7VyeuOr4U
上次写文章远近和一些朋友都对二代华人发展比一代差这个言论表达了兴趣,为了严谨
我专门向马里兰大学(University of Maryland) 要求了他们在06年关于华人的大数据
调查报告(下次应该在16年)并粗略阅读。 可惜的是,这个报告并没有网络Pdf版本,
因此当引用图标的时候就只能用照片的方式来抓图了,不清楚的地方大家包涵一下。
里面的一些数据之有趣,是值得大家思考的。
1。 在美新华人多?老华人多? 答案是新华人。
虽然华人在美历史悠久,但今天在美华人70.6%都是出生在美国以外的地方。 也就是说
,新移民占据了全部在美华人的7成以上。 这七成新移民中,8成5的人都是大陆,台湾
和香港移民。 剩下1成5是马来西亚,印尼,泰国等地的华人二次移民。
在美华人由来美年龄可以构成第一代移民(成人以后来美)1.5代移民(在童年来美,
有一定中国教育)及二代以上(在美国出生),其中54.2%的华人都是第一代移民。 29
.8%是二代及... 阅读全帖 |
|
d****n 发帖数: 12461 | 46 那你恐怕很难做东西。
如果两个分布已经叠加了,把他们分开也是很难的。现在即使告诉你分布而不仅仅是平
均数,让你对一系列数据分类,这也是一个不简单的过程。 |
|
m*z 发帖数: 2356 | 47 鉴于目前本版最近新人又多了起来, 加上学习气氛不浓. 我觉得需要做一些整顿了.
1. 盘中不能随便灌水. 每天版副会开一个灌水主贴, 大家可以在后面跟贴灌. 重大event期间, 还会加开一个,比如世界杯.
2. 组成一些学习小组.每个组分工不同,并设组长和副组长. 每个人必需加入至少一个, 加入后要做出能做的贡献. 每个组每天早上各开一个主贴, 可以方便小组成员跟贴和其他小组跟踪.以下先暂列几个小组及可能的组长, 另外非常欢迎毛遂自荐.
大盘/ETF: badfish/tanmaomao
大型股: 老牛/坏总
DT:
ST: MMZ/edn
subpenny: 主席
Russell3000: 林肯
ER play:
中概: upload /jadefan
生拉: 老牛/bzd/hill168
FA: urqueen/大象
抄底/捞帮: 大S/翡翠
Insider buy: MMZ
3. 选股比赛. 由于工作量较大, 建议每人只能选两个,取平均数. 每周成绩累积,还将产生月,季,年冠军. 有重奖, 也有重罚... 阅读全帖 |
|
t******y 发帖数: 6206 | 48 你的统计非常好,称赞!
但是中概即使是是小避风港但也绝成不了大的避风港,
全球5月里的PMI均数据不佳,整体制造业低迷,库存多销量少。
可预见6月过后的市场会血雨腥风。
把资金放在中概里难谈盈利,甚至无法避险。 |
|
w****2 发帖数: 12072 | 49 咱中国人是怎样才吃上饱饭的? [ 老老狐狸 ] 于:2014-03-15
15:24:38 复:3987032
咱中国是个大国,中国人口超过了经合组织国家全部人口总和。人口1亿的日本可
以接受30%的粮食自给率,而13亿中国人,要想吃饱饭就只能主要靠自己,毕竟,全球
粮食贸易总量也不到中国粮食总产量的一半。
胡靖博士做过研究,人均粮食供给量不低于248.56公斤,就能保证每人的生存安全
,若低于此值,则会发生绝对的粮食危机或绝对饥荒。
联合国粮农组织确定的成人最低人均日食热值水平为2300大卡,相对舒适水平为
2600大卡。中国卫生部门推荐每人日食热值水平为2400大卡,同时还 推荐日食70 g蛋
白质与65 g脂肪,这样就可以基本满足中国成人正常生存需要的营养。按中国中长期食
物发展战略研究组研究,若与每人·日食物摄取热量2468大卡、蛋白质70.1 g相适应,
全国按人均主要食物的需求量为:粮食为407公斤,肉类29公斤,蛋类14公斤,奶类9公
斤,水产品14 公斤,植物油9公斤,食糖6公斤。
从这张图可以看出,中国在80年代初跨... 阅读全帖 |
|
w****2 发帖数: 12072 | 50 【 以下文字转载自 Military 讨论区 】
发信人: Regina (猫宝宝), 信区: Military
标 题: 美国的世族统治究竟多严重?
发信站: BBS 未名空间站 (Tue Apr 14 09:07:50 2015, 美东)
美国的世族统治究竟多严重?
赛斯·史提芬斯-大卫德维茨
经济学博士,曾任谷歌公司数据科学家
发表时间:2015-04-14 06:45:54
关键字: 美国大选总统大选美国总统布什家族政治希拉里希拉里·克林顿杰布·布什
博彩网站Oddsmakers显示,2016年美国总统大选最可能出现的对阵情况是杰布·布什对
希拉里·克林顿。
两个家庭以这种方式把持美国总统职位,这使许多美国人感到不安。无论你是否喜欢两
位候选人中的任何一位,你总会觉得哪里出了问题——这是布什家族与克林顿家族的第
二次对垒,也是对美国自诩的“民主式选贤任能”模式的嘲讽。
裙带关系给美国带来的问题到底有多严重?或许科学数据能帮助我们了解这个答案——
实际上,数据显示,美国的裙带问题已经混乱失控。
我研究了“婴儿潮一代”(观察者网注:出生于1946-1... 阅读全帖 |
|