W**********E 发帖数: 242 | 1 在做一个SIMULATION,给定了10个变量的回归系数,比如X1,X2,X3,。。X10。
然后想取另外10个新系数,想看这组新系数的影响变化。有什么方法能让我取系数的
时候定个范围,比如说在这个范围内变动10个旧系数=>得到10个新系数结果不会
变太多。变动太多,新系数的结果和老系数的结果会差很大。
有什么文章讲这种变动VECTOR的方法没?希望解释明白了, 谢谢 |
|
j*********u 发帖数: 609 | 2 你有一个sample,拿到一个DV1,一个DV2,一个IV和其他一些自变量
在对DV1做回归的时候,得到IV的回归系数beta1
在对DV2做回归的时候,得到IV的另一个回归系数beta2
两次回归的自变量群是一样的,
如果beta1显著不为零,beta2与零差异不显著,我们可不可以推论在给定的这堆自变量
的情况下IV能更好的predict DV1?
如果发现 beta1>beta2,有什么意义吗?可以做什么推论吗?有相关的统计测试可以用
吗?我印象里好像有,但就是想不起来。。。
还请大家指点一二~ |
|
p*******n 发帖数: 445 | 3 最近拿到一组数据,measurement error比较大不能忽略,大概相当于100+/-30这样,
所有的数误差范围差不多。
老板指示我对这组数据做multivariate linear regression,要考虑measurement
error对regression coefficient的影响。我和老板都不懂统计,大概就是觉得因为测
量不准所以fit出来的回归系数和真实的回归系数会差很多,最好能给fit出的回归系数
加个confidence interval。请教一下各位这个该怎么做?有啥推荐的课本或者文章没
?多谢! |
|
s*****a 发帖数: 353 | 4 分别论证每个系数单独变化没有影响吧。对于a1:
证明Y'对X回归系数常数项变成A_hat-a1,一次项保持不变,这里A_hat和B_hat是原回归
的系数,然后算R^2发现保持不变。别的项思路类似 |
|
s*****a 发帖数: 353 | 5 分别论证每个系数单独变化没有影响吧。对于a1:
证明Y'对X回归系数常数项变成A_hat-a1,一次项保持不变,这里A_hat和B_hat是原回归
的系数,然后算R^2发现保持不变。别的项思路类似 |
|
R******d 发帖数: 1436 | 6 1,请问如何指定回归方程里考虑到所有的2-way interaction。自变量比较多,手写太
麻烦了。
model response=f1 | f2 | f3 | f4 这种写法会把高于2-way的也包括进去。
2,想建一个multivariate multiple regression模型来比较一些自变量对不同回归方
程的贡献。请问怎么得到标准化回归系数的Ratio的置信区间?
这种情况是否只能通过multivariate multiple regression来做?如果建立两个单独的
回归方程,能做到么?
3,这个和sas code无关。RandomForest回归是否会好于SVM回归?似乎tree
regression会考虑到interaction的情况,而且对于每个自变量的贡献也好解释。
多谢了。 |
|
R********n 发帖数: 519 | 7 比如根据已经有的数据得到了回归系数beta,这个时候如果来了一个新点x_new,但是
没有y_new,我可以得到估计的y_est = x_new'*beta,这个时候,怎么得到y_est的置
信区间呢?
回归时可以得到beta的95%置信区间,但是感觉用这个区间去算y_est的置信区间不太合适
或者,可以看回归的时候的mse,取s=sqrt(mse),(近似认为回归误差是高斯分布),
然后认为y_est的95%的区间就是y_est加减2*s?(还是此处应该用t-distrubtion?)
谢谢~~ |
|
f***a 发帖数: 329 | 8 每个系数加一个standard normal error不就行了吗,standard deviation用来控制变
化大小。response对不同系数的sensitivity不一样,所以各个standard deviation可
以不同。 |
|
j***p 发帖数: 4 | 9 请问各位高手如何比较两条回归曲线的回归系数间是否有显著性差异,打个比方说,
比较两组药物的代谢率哪个更快一些,我会分别作两条呈下降趋势的回归曲线,一条快
点,一跳慢点,如何比较快慢是否差异显著?多谢了! |
|
T*******I 发帖数: 5138 | 10 如果您依然没有读懂我的这篇短文,我愿意再次陈述清楚一点。
我所说的迭代搜索,是指的根据全域模型给定的模型结构(例如这里我采用的是最简单
的直线模型。这个例子的全域模型也可以采用二或三次多项式模型),假设X的任一随
机实测点是可能的临界点,然后据此分解样本空间,在每段子空间里建一对与全域模型
同构的分段模型,其回归系数将依从假设的临界点而随机可变。因此,如果样本量为n
,则有n对临界模型,但这些模型都不是我们所需要的,它们的作用仅仅是输出期望的
预测误差,从而与全域模型的期望预测误差构成一个相对权重(这个权重是一个随机变
量,有n个随机点测量值),从而,被假定的x_i与其权重一起就可以估计X的一个加权
期望。由于在这个两分法中X是作为被分割的临界变量的,因此,随机临界点的可测空
间与X的可测空间相同,从而这个加权期望就是随机临界点的期望估计。既然临界点期
望已经被估计出来了,我还会继续找其它的什么点作为临界点么?
因此,当临界点的期望得到后,据此分解样本空间并由各子样本建立最终的分段模型。 |
|
T*******I 发帖数: 5138 | 11 我已经看不懂这位的评论了。令人感到有点不知所云。也许是我学的知识太过落后了,
现在有新的语言来表述回归分析的基本原理了。
其实,回归分析的原理很简单。我们只能用样本来估计一组随机变量间的量化的变异关
系,这个量化的关系就是回归系数。由于总体回归系数究竟是什么没人能够知道,但我
们可以知道有一个0回归系数,即无回归关系。所以,当用样本估计一个回归系数b后,
我们的统计检验假设就是:
H0: b=0
H1: b=/=0 (=/=意思是不等于)
目前的回归系数的检验技术就是在回答b是否等于0。如果b不等于0,则由样本所估计的
结果就是唯一可以接受的结果,因为我们并无第三个可供参考的回归系数的数值(例如
B)用于建立如下检验:
H0: b = B
H1: b=/=B
一般而言,检验中接受H0成立的概率水平设定为0.05。如果p<0.05, 则拒绝H0,表明即
使由于抽样误差的存在,由样本估计的b等于0的可能性也<0.05;反之,如果p>=0.05,
则接受H0,表明由于抽样误差的存在,由样本估计的b等于0的可能性>=0.05。这已经是
一个很严格的拒绝水平了。
test |
|
s*****n 发帖数: 2174 | 12 这个有什么可解释的, 很正常的现象啊.
比如有一个隐藏变量C, C的影响远不及A.
真实的y=A+C来决定的, 而由于你不知道这个隐藏的C.
你能观测到的仅仅是B=A-C, 于是误用A和B来做回归.就会出现这种情况.
你单独用A或者B回归, 得到的都是正相关的, 因为这主要都是在显示A的作用.
而你在A的基础上再加入B, 那么B所代表的其实就是C的作用了.
由于B于C是负关系, 而y与C是正关系, 那么B的系数自然是负的了.
给你举一个直观点的例子: 比如y是家庭收入, A是丈夫收入, C是妻子收入.
每个家庭, 都是丈夫收入远远大于妻子收入. 而由于种种原因, 有个问卷调查只获得了
丈夫收入(A)和夫妻收入差(B=A-C). 你用A,B这两个变量来做家庭总收入(y)的回归.
y对A回归系数为正
解释: 丈夫收入越高, 家庭收入越高.
y对B回归系数为正
解释: 夫妻收入差越高, 家庭收入越高.
y对A,B一起回归, A系数正, B系数负:
解释: 丈夫收入越高, 家庭总收入越高, 且在丈夫收入确定的情况下, 夫妻收入差越低
, 家庭总收入越高.
这三个现象不是很显而易见吗?
and |
|
e******e 发帖数: 410 | 13 应该先检验interaction是否显著,然后检验confounding(或者叫mediation)
1 X,M,XM同时对Y做回归,看XM的回归系数是否显著.显著,代表interaction显著,必须对
X进行分组,分组的标准是由M水平而定;不显著,代表不需要考虑interaction,直接考虑c
oufounding的问题.
2 在没有显著interaction情况下,将X与Y做回归,得到X的回归系数.接着将X,M与Y做回归
,得到X的回归系数.比较这两个回归系数,如果变化很大(30%以上),confouding成立;反之
则没有明显的coufouding.
3 interaction显著的情况,分组后重复步骤2. |
|
l********a 发帖数: 126 | 14 如果有两个可能的自变量,X1和X2.如果单独对X1回归 (Y=a*X1+c+r),得到的判定系
数是R1^2
如果单独对X2回归,得到的判定系数是R2^2
那么如果对两个一起回归(Y=a*X1+b*X2+c+r)
那么可能的最大和最小的判定系数分别是什么?另外,这两种极端情况(最大和最小的
判定系数)下会遇到什么问题? |
|
d*********u 发帖数: 8521 | 15 非统计专业问一个有关回归自变量的问题,见笑了。
问题如下:
在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而
X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一
个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本
身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此
可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能
造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1
和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非
要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1
进入方程的R square相比,并没有显著提高,近似相同。
注:该模型方程是用于社会科学中某一现象的解释,并非严格的(物理、化学)实验方
程,因此才有上面的疑问3.
不知道我的理解对不对,请大家指教,谢谢!! |
|
l********a 发帖数: 126 | 16 如果有两个可能的自变量,X1和X2.如果单独对X1回归 (Y=a*X1+c+r),得到的判定系
数是R1^2
如果单独对X2回归,得到的判定系数是R2^2
那么如果对两个一起回归(Y=a*X1+b*X2+c+r)
那么可能的最大和最小的判定系数分别是什么?另外,这两种极端情况(最大和最小的
判定系数)下会遇到什么问题? |
|
T*******I 发帖数: 5138 | 17 或许,我们在统计学里需要把“等于”的概念与数学中的“等于”相区分。
统计学里的一个统计量“等于”某个数值不同于数学里的“x=3”这样的概念,因为任
何一个统计量都伴随着抽样误差或抽样变异性。由一个样本所估计出来的统计量不是一
个常量,而是一个随机的变量,因为样本是随机得到的。但一个样本本身的一切信息又
都是固定不变的,因此,由样本我们可以得到一个确定的估计结果。这个“确定性”仅
对样本本身成立,但对于总体则是随机而不确定的。所以,不能把由样本估计的统计量
看成是总体参数不可变的结果。
这种理解已经超出了经典数学里关于“同一性”或“相等”等概念的内涵。
因此,当检验一个回归系数b是否等于0时,我们通过检验b-0这个绝对差值中抽样误差
发生的概率大小而得到关于b本身的精确程度的估计。这是不容置疑的。又由于我们仅
有关于某个样本的回归系数可用,因此,这个回归系数便成为唯一可接受的关于总体相
应参数的估计结果的一个期望值,当然,还有关于它的抽样标准误。而由这个期望值和
相应的标准误,我们就可以得到关于总体参数估计的一个随机分布。没有其它。
我和你所使用的语言略有不同,这并不妨碍我们使用相同的方... 阅读全帖 |
|
s*******0 发帖数: 3461 | 18 第二道题 有标准答案吗
个人觉得 ridge 因为是l_2 norm 所以系数不会shrinkage 到0, 但是l_1 norm 的
lasso
regulation parameter lambda 增大的情况下 回归系数会到0,
如果用来做feature selection 的话 应该还是lasso 好点。
另外 共线性 interaction的话 难道不是多加一个x_1*x_2的变量 然后看回归系数
是不是significant 的撒?
是不是这个方法太trival 了? |
|
发帖数: 1 | 19 http://www.soe.xmu.edu.cn/info/news/2018-11-23-18161.html
由厦门大学经济学科张兴祥副教授、钟威教授和洪永淼教授(通讯作者)合作的“中国
梦”论文《国民幸福感的指标体系构建与影响因素分析:基于LASSO的筛选方法》已被
《统计研究》作为2018年第11期的重要文章置于首篇刊出。该文系洪永淼教授主持的国
家社会科学基金特别委托项目“中国梦的系统结构、操作层面及国际比较研究”([email protected]
ZH020)的阶段性成果之一。
论文借鉴“美国梦综合指数”、Benjamin等已有研究文献的幸福指数量表,构建一套适
合于测度中国国民幸福感的指标体系,通过设计调查问卷、展开全国性的实地调查以获
取样本数据。为了有效地选择重要变量和消除估计偏差,论文采用新近发展的重要统计
方法LASSO(Least Absolute Shrinkage and Selection Operator)筛选方法。LASSO
方法优势在于通过添加惩罚项,将不重要变量的回归系数直接估计为0,从而达到剔除
不重要变量的目的。基于LASSO筛选... 阅读全帖 |
|
h****g 发帖数: 28 | 20 通过回归分析考察调节效应
假如欲考察调节变量M在变量X对Y中的作用
通常的做法是回归的第一步用X和M对Y做回归
第二步用XM的乘积对Y做回归
然后看XM的回归系数是否显著来考察调节效应
昨天听一个人说在第一步的回归可以只将X变量对Y做回归,
即在第一步中M变量可以不纳入
希望高手帮忙解答,是否真的在第一步可以不纳入调节变量M?
3x and bow :) |
|
a**y 发帖数: 6501 | 21 跟某教授谈了谈, 大概齐还是前面的意思。
为啥平方呢?一平方,负的就变成正的了。
总不能把正正负负的errors直接加起来吧。
为啥不取绝对值呢?取了绝对值,你的目标函数就是折线了,求导不方便。
而2乘法出来的函数,光滑完美,一求导就得出唯一的最小值,
高斯的beautiful mind!
为啥不用4乘?导数为零的地方不止一处你还得考虑global optimal的问题。
爱因斯坦说了,science should be simple.
当时的故事是这样的,高斯发明最小二乘法之后不久,
马科夫就证明了最小二乘法是best linear unbiased estimator
that minimizes the variance of errors.
这是多么丢人的一个证明啊,variance本来就是用二乘defined
人家高斯根本不屑写出来。
所以,为啥大家都用二乘法,
因为它1)是高斯发明的 2)简单、大方、直观、完美。Math is a art!
另一个教授说得更玄乎一些,用几何来解释回归,如果你有兴趣,just google
keyword "geometry of least... 阅读全帖 |
|
c****r 发帖数: 576 | 22 你前面说的金融交易与政治有关我很赞同,不过后面说统计不管用,我有不同的看法。
算不算众所周知呢,就是相关系数不能等同于因果关系。它只能表示两者之间的关系,
并没有因果之分。金融上的数据多是时间序列,那么介于变量A和B两者之间,一个简单
的因果关系可以是A先发生,导致了B之后的变化,那么统计方法上可以对A引入一个时
间滞后,然后和B作回归分析(Regression Analysis),再检验回归系数的显著性,从而
得知是不是因为A的变化而引起了B的行为。以上是一个统计推断(Statistical
Inference)的典型例子。
所以说,我不觉得统计在金融数学上一无是处,那些引入随机变量进行微分方程(SDE)
建模之类的都不如统计用处广。多变量,噪音,时间序列,大数据,不用统计用什么?
另,矿工和交易员不一样吧。 |
|
T*******I 发帖数: 5138 | 23 如果你把相关和回归系数的检验部分从方法学中拿掉,就是没有概率论支持的方法论。
这时,相关和回归的系数计算没有任何困难。困难的是关于它们的可信区间和不等于0
的可信度。
借这个回答一并答复shinder的疑问。
顺便指出Actuaries的下列陈述中的一个错误:
the "assumptions" should be "hypothesises". |
|
l**********e 发帖数: 336 | 24 谢谢~~
1,got it,那就是此时F只是说beta系数不全为0。恩,那具体每个变量对应的beta是
否有效,是不是就去看相应的t-stat,如果t-stat的值大,对应的p-value小,就说明
这个系数起到了明显的回归作用?
2,那去看看怎么用variance inflation factor,赞~~
it'
multicollinearity |
|
T*******I 发帖数: 5138 | 25 这应该是统计学里最简单的问题了。估计只有没学过统计的人才会问这个问题。
它的意思就是告诉你,回归系数等于0的可能性几乎为0,反之就是说回归系数不等于0
而是等于你的样本所估计的那个数值的可能性几乎等100%。 |
|
T*******I 发帖数: 5138 | 26 我觉得很多人没搞清楚差异性检验法中那个用于推断的概率的实质。
就本题讨论的回归系数的检验而言,那个检验是在推断b-0这一绝对差中抽样误差发生
的概率大小(a),从而得到总体回归系数等于b的概率大小(1-a)。这两者是同一的,因
为b与0之间的全部误差由且仅由两部分构成:一部分是系统误差,另一部分就是抽样误
差。
当b=0的假设被拒绝后,我们便只有唯一的可接受的结果,即b,以及相应的b的样本基
础上所估计的变异性。所谓的最优性、无偏性则都是由算法保障的。不是由算法所得出
的数值所保障的。
题。 |
|
n****t 发帖数: 182 | 27 “从而得到总体回归系数等于b的概率大小(1-a)”
这个结论是不能得到的。回归系数等于b的概率是0。
“那个检验是在推断b-0这一绝对差中抽样误差发生的概率大小(a)”, 这个说法不仅
是不严格,和FISHER的P值就更加不沾边了。FISHER 的P值,是假定0是真实的情况下,
比B或者更极端的情况发生的概率。
如果按照老祖宗FISHER的这个说法,把B定位为真实值,实际上这个P值变为50%(在对
称分布的假设下)。1-a这个说法怎么说都站不住脚。
虽然按照这个说法,做出的最后决定不是错误的,但是决策的过程中没有正确使用统计
概念。 |
|
a*******m 发帖数: 14194 | 28 香港的衰落是早就注定的事情,正如他当年的兴起一样
http://www.mitbbs.com/pc/pccon_6913_t0_233147.html
作者:awaydream
发表时间:2012-07-02
更新时间:2012-07-02
浏览:2371次
香港的衰落是早就注定的事情,正如他当年的兴起一样
http://www.mitbbs.com/pc/pccon_6913_t0_233147.html
作者:awaydream
发表时间:2012-07-02
更新时间:2012-07-02
浏览:2371次
发信人: awaydream (大剑一挥风雷动,不畏豪强斩蛇虫。), 信区: Military
标 题: 香港的衰落是早就注定的事情,正如他当年的兴起一样
发信站: BBS 未名空间站 (Mon Jul 2 11:12:12 2012, 美东)
yst的说香港系列,早已经从各个层面阐述了香港完蛋的必然性,
我在这里不再赘述。
我补充几点他没说,或者说点他说得不足的地方。
1. 香港就是一个收费站,一个卡在大陆脖子上的吸血鬼。
新中国建立以后,我们经济被封锁,只有一个和外界互通... 阅读全帖 |
|
H*H 发帖数: 472 | 29 大家好,最近在做排污方面的多元线性回归时遇到了一个问题,特来请教一下。
先简单说一下我的例子:
在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
为自变量,构建了以下回归方程:
△y = a+ b1*x1 + b2*x2 + b3*x3
利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;
b1 = -0.08; b2= 0.11; 而 b3 = 3.54
方法A会引起-8%的误差,方法B引起的误差是11%,这都在我们的估计范围内。但是方法
C 引起的误差 354%就远远超出了可能值。
我认为这是由于x3比较小引起的,利用ols方法作回归分析时,x3远小于x1跟... 阅读全帖 |
|
H*H 发帖数: 472 | 30 大家好,最近在做多元线性回归时遇到了一个问题,特来请教一下。
先简单说一下我的例子:
在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
为自变量,构建了以下回归方程:
△y = a+ b1*x1 + b2*x2 + b3*x3
利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;
b1 = -0.08; b2= 0.11; 而 b3 = 3.54
方法A会引起-8%的误差,方法B引起的误差是11%,这都在我们的估计范围内。但是方法
C 引起的误差 354%就远远超出了可能值。
我认为这是由于x3比较小引起的,利用ols方法作回归分析时,x3远小于x1跟x2的话是... 阅读全帖 |
|
l**d 发帖数: 76 | 31 多谢。
请问正交化怎么做:如果正交化A1-A9之后得到Z1-Z9,Z1-Z9的回归系数应当是什么?
如果把问题表述为:知道A1-A9和9个相关系数,是否能找到满足这些相关系数的B?这
个问题是否能解?
recover |
|
l**d 发帖数: 76 | 32 多谢。
请问正交化怎么做:如果正交化A1-A9之后得到Z1-Z9,Z1-Z9的回归系数应当是什么?
如果把问题表述为:知道A1-A9和9个相关系数,是否能找到满足这些相关系数的B?这
个问题是否能解?
recover |
|
W**********E 发帖数: 242 | 33 对于linear model而言,如果两个变量(x1,x2) 完全独立,你是一起fit,还是先fit
X1再用residual fit X2,两者等价,x1,x2的回归系数都一样。
如果两个变量(x1,x2)之间有correlation,然后这两个变量都和结果变量相关,一起fit
和先fit一个,然后再用residual fit 另外一个,系数不一样。第2个方法得出来x1,x2
的系数都是biased. 你目的就是预测? |
|
发帖数: 1 | 34 hongyongmiao这逼堕落到这个地步了
[在 deepJaNet (69之王) 的大作中提到:]
:http://www.soe.xmu.edu.cn/info/news/2018-11-23-18161.html
:由厦门大学经济学科张兴祥副教授、钟威教授和洪永淼教授(通讯作者)合作的“中
国梦”论文《国民幸福感的指标体系构建与影响因素分析:基于LASSO的筛选方法》已被
:《统计研究》作为2018年第11期的重要文章置于首篇刊出。该文系洪永淼教授主持的
国家社会科学基金特别委托项目“中国梦的系统结构、操作层面及国际比较研究”([email protected]
:ZH020)的阶段性成果之一。
适合于测度中国国民幸福感的指标体系,通过设计调查问卷、展开全国性的实地调查以
获取样本数据。为了有效地选择重要变量和消除估计偏差,论文采用新近发展的重要统
计方法LASSO(Least Absolute Shrinkage and Selection Operator)筛选方法。
LASSO
筛选重要变量,然后再对筛选出的变量进行回归系数估计及显著性检验。总样本的回归
结果... 阅读全帖 |
|
g******n 发帖数: 19 | 35 【 以下文字转载自 Statistics 讨论区 】
发信人: greensun (爱上了自己的尾巴), 信区: Statistics
标 题: 求源代码:多元非线性回归(multidimen nonlinear regression)
发信站: BBS 未名空间站 (Tue Jan 27 21:16:41 2009)
我的函数是y=1/(1+a*x1) * 1/(1+b*x2)
已知数据点x1(1...m) x2(1...m) y(1..m)
拟和系数 a ,b
我只在Numerical recipes 上找到一元的非线性回归算法(Levenberg–Marquardt
algorithm), 不知道那位肯指点一下二元的算法?fortran/c/c++ 代码都可以
谢谢// |
|
g******n 发帖数: 19 | 36 【 以下文字转载自 Statistics 讨论区 】
发信人: greensun (爱上了自己的尾巴), 信区: Statistics
标 题: 求源代码:多元非线性回归(multidimen nonlinear regression)
发信站: BBS 未名空间站 (Tue Jan 27 21:16:41 2009)
我的函数是y=1/(1+a*x1) * 1/(1+b*x2)
已知数据点x1(1...m) x2(1...m) y(1..m)
拟和系数 a ,b
我只在Numerical recipes 上找到一元的非线性回归算法(Levenberg–Marquardt
algorithm), 不知道那位肯指点一下二元的算法?fortran/c/c++ 代码都可以
谢谢// |
|
T*******I 发帖数: 5138 | 37 戈塞特本人可能没有深厚的哲学素养,但他自觉而精细地使用到了在此之前的三大逻辑
系统,从而完美地促成了这次革命。
至于相关与回归分析的基本思想确实是在t-test之前就产生了,但在没有实现对相关与
回归系数的显著性检验的基础上,我们还不能说这个方法就是完全正确可行的,而只能
说还只是在空谈关系的存在与否。只有当t-test的基本方法建立起来后,对相关和回归系
数的显著性概率推断法才有了现实的依据,从而整个方法论才算最终确立。
"
2331683 |
|
l**********e 发帖数: 336 | 38 假设数据X是多维变量,比如3维,要回归的Y是一维的。然后run线性回归,如果得到的
F-stat是3.31,p-value是0.045,这个算是模型显著吗?
另外,通常如果X的几个变量之间共线性/Co-linear严重,会需要一些对X的预处理(比
如用PCA降维)。但是,到底什么程度才算是共线性严重呢?比如对于3个变量,3个互
相关系数是0.24, 0.46,0.59,协方差矩阵的3个特征值分别是1.87, 0.77, 0.36,这
样的算共线性严重吗?
对于数据X的共线性问题,是不是可以有共线性的test去测试下?
谢谢!~~~ |
|
c******g 发帖数: 63 | 39 我有两个attribute X1 和 X2,response variable是Y. 同时用这两个attribute的
data fit出来的linear model(三个系数的,b2,b1,b0)的RSS,是不是不可能大于仅
用任何一个X_i的data fit出来的model(两个系数的)的RSS啊?
谢谢! |
|
k*******a 发帖数: 772 | 40 你可以直接用 MLE 估算,每个点相当于得到y_i, S_i^2, 他们indpedent,可以写出
likelihood 然后 maximize
如果只是估算系数的话,把 每个点的 mean 重复 n_i次 (x_i位置重复测量次数)
,进行回归,系数是正确的,但是 error是不准确的。 |
|
R********n 发帖数: 519 | 41 thanks. linear regression,查了下,似乎用t分布做为系数,乘在root of MSE前
面,t_{\alpha/2,n-2} * root of MSE(还有个系数,不过基本是1)
感觉这样是make sense? |
|
c********h 发帖数: 330 | 42 这个pvalue相当于比较两个模型
模型1:y~1
模型2:y~1+x
如果pvalue很小,说明如果模型1是对的,就是如果所以变量的系数都是0,你得到这样
一个fitting results的概率是非常非常小的。
一般要一个significance level, 比如0.05,那么pvalue小于0.05,就拒绝模型1。
但我觉得它不能说明回归系数等于样本算出来的值的概率很大... 那需要做其他的test |
|
m******y 发帖数: 753 | 43 长话短说,系数就不写在方程里了, cross sectional data 回归分析
Y1(数据已知)= X1(数据未知)+ X2(数据已知)+ X3(数据已知)
Y2(数据已知)= Y1(数据已知)+ X1(数据未知)+ X2(数据已知)+ X4(数据已知)
X1是Y2的前一年t-1的值,但是没有数据.
这个未知的X1应该怎么处理呢?不允许直接扔掉X1。 |
|
g******n 发帖数: 19 | 44 我的函数是y=1/(1+a*x1) * 1/(1+b*x2)
已知数据点x1(1...m) x2(1...m) y(1..m)
拟和系数 a ,b
我只在Numerical recipes 上找到一元的非线性回归算法(Levenberg–Marquardt
algorithm), 不知道那位肯指点一下二元的算法?fortran/c/c++ 代码都可以
谢谢// |
|
h**********i 发帖数: 580 | 45 谢谢。可能是我没有讲清楚,selection=f的话可以在输出窗口看到step1和step2分别
有哪些变量,但是我要同时做若干个这样的回归,不可能一个一个地在输出窗口看
step1和step2是什么变量,而是希望有一种方法,可以在数据集中查看。
我试过outest=work,结果得到的work中包含了X1-X10的所有回归系数,而不是只有
step2的 |
|
T*******I 发帖数: 5138 | 46 这位客人的问题非常好。
让我给出一个关于我的方法论的应用实例。
我上大学时所在系的那个年级有两个专业4个小班共计128人从中毕业。如果某个研究者想
用这个班的学生成绩与其所有可能调查得到的p个影响因素建一个回归模型。按照现有
的方法学体系,我们会拥有一个单一的全域模型(fullwise model)。在这个模型里,所
有的有显著性的回归系数都是不变的,意味着无论成绩在整个空间上怎样变化,它与各影
响因素之间的关系是不变的!
现在,我想知道,如果成绩空间被分为三个临界区间,分别为高、中、低,那么,成绩的
变异在各临界空间里与上述m个影响因素之间的关系还是如同全域模型所给定的那样吗?
如何找到分割空间的标准——即两个临界点在哪里?怎样才能找到它们?这个三分法成立
吗——即两个临界点的期望估计是相等的吗?(这个可能性是不能被排除的!) |
|
m******2 发帖数: 564 | 47 就是他要给分段模型测一个断点位置
为了更准确合理的寻找这个断点位置,他对每一个样本点测一个是断点的概率
然后求一个断点位置的期望,确定断点
然后再分段回归
基本意思就是这样吧
http://www.mitbbs.com/article_t/Statistics/31280183.html
“我所说的迭代搜索,是指的根据全域模型给定的模型结构(例如这里我采用的是最简单
的直线模型。这个例子的全域模型也可以采用二或三次多项式模型),假设X的任一随
机实测点是可能的临界点,然后据此分解样本空间,在每段子空间里建一对与全域模型
同构的分段模型,其回归系数将依从假设的临界点而随机可变。因此,如果样本量为n
,则有n对临界模型,但这些模型都不是我们所需要的,它们的作用仅仅是输出期望的
预测误差,从而与全域模型的期望预测误差构成一个相对权重(这个权重是一个随机变
量,有n个随机点测量值),从而,被假定的x_i与其权重一起就可以估计X的一个加权
期望。由于在这个两分法中X是作为被分割的临界变量的,因此,随机临界点的可测空
间与X的可测空间相同,从而这个加权期望就是随机临界点的期望估计。既然临界点期
望... 阅读全帖 |
|
R********n 发帖数: 519 | 48 回归后beta也有一个interval,i.e., 95% interval,但是直接拿这个去算preidction
的interval感觉不太合适,这个interval是针对每个单独的beta系数的,不是把beta看
成一个vector的~~
所以我才觉得用square root of MSE (sigma),就是y_est +/- c*sigma,当然c这个因
子需要去确定
你觉得这样make sense吗?
the |
|
T*******I 发帖数: 5138 | 49 多谢解惑。按照我的理解,在任何统计实践中,我们都只能用样本来估计一个总体的某
种“状态,state”,例如,回归系数就是回归关系这一状态的度量。所以,如果检验
的结果是在一定的概率水平上拒绝H0,则只能在同一概率水平上接受H1,而接受H1就意
味着只能接受由该样本所估计的b。这两种解释之间具有合理的一致性。除此之外,我
们没有办法接受任何其它度量的结果。
其实,除了检验b是否等于零外,我们还应该有b是否等于b的检验,但由于这等同于检
验一个量是否等于其自身,所以没有必要。
统计检验的概率不是要告诉人们被检验的统计量用来估计总体相应参数时是否正确的概
率有多大,仅仅只是告诉人们对总体相应参数的估计等于由样本所估计的统计量的可能
性有多大。
我不太理解他所说的:
模型1:y~1
模型2:y~1+x
这是什么意思? |
|
|