第2页 - 关于glm的讨论汇总 - 话题女王

Q*****T
发帖数: 558

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

然后这篇文章还是第二页，第13行说到“The importance of normality of residuals
in GLMs, on the
other hand, is debated.”
means some people don't care the residual in GLM
------> 我懂这句话的意思是说GLM中residual的normality不是太重要。但我的主要问
题是，为什么GLM的residual本来就不一定是正态分布（如logistic regression），为
什么还在讨论GLM中residual的normality是不是重要这件事呢？这两个residual是同一
个residual吗？

residuals

l****c
发帖数: 7

来自主题: Statistics版 - 请教一个R问题

Suppose X is a n*p matrix, Y is 1*n vector. I want to fit a multiple
regression in R as:
glm(y~ x[,1] +x[,2] + ...+x[,p]) ( this is not work in R, since "..." is
not work)
Here p is pretty large, suppose 20, do I have to type all 20 variables. Is
there a simple way to write that in R?
I tried to use glm.fit in R as:
glm.fit(X, y)
But the coeffiecients is different from the glm(why).
Thanks!

p********a
发帖数: 5352

来自主题: Statistics版 - [合集] 问个基本的建MODEL问题

☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Mon Aug 29 09:50:26 2011, 美东) 提到:
OUTCOME: BMI
PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
所有的PREDICTORS是ORDIANL VARIABLE.
我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
我用了2个方法:
1.
PROC CORR SPEARMAN;
VAR BMI QUESTION1n QUESTION2n...;
RUN;
生成一个CORRELATION TABLE.
2. ANOVA
分别把每个PREDICTOR和BMI放到MODEL里,这一步,我不是很确定.
proc glm data = DATA;
class QUESTION1;
model BMI = QUESTION1;
meansQUESTION1;
run;
quit;
最终,是要建个MIXED MOD... 阅读全帖

w**********y
发帖数: 1691

来自主题: Quant版 - quant用到data mining 多吗？

yes, I know GAM. Hastie and Tibshirani's Toy..It is a nonlinear
generalization of the GLM(GLM belongs to GAM). One of my FMRI project used GAM
combined with cubic spline.
But frankly, I didn't try that in the field of finance before. The reason is
as listed on wikipedia "GLMs may be preferable to GAMs unless GAMs improve
predictive ability substantially for the application in question."
And based on my experience to make prediction of stock movements, nonlinear
transformation of predictors seems... 阅读全帖

s*****n
发帖数: 2174

来自主题: Statistics版 - 如何在1，2，3，4，5中随机选出2个数来？

感觉一些逻辑性很强的任务, 如果用SAS来做肯定复杂很多, code也会很长很啰嗦.
比如说我有一个csv文件, 里面有10万个obs.
1. 读入文件, 随机选1万行
2. 如果选出的1万行满足某些性质(比如某个variable均值>0),
则做一个简单线性回归; 如果不满足此性质, 则做一个GLM回归.
3. 如果是线性回归, 把回归参数提出来作为某个函数A的参数.
如果是GLM回归, 则把回归参数提出来作为函数B的参数.
4. 再选出1万行, 根据3的条件来应用函数A或者函数B.
5. 将2-4运行1000遍做simulation, 分别画LM和GLM两种情况的某种分布图.
这要是用SAS做, 还不得一会DATA STEP, 一会这个PROC, 一会又DATA STEP,
一会那个PROC, 搞不好还得弄个macro啥的?

S********a
发帖数: 359

来自主题: Statistics版 - 【包子】问个从R结果中取值的问题

> sqrt(diag(adj.lrm$var))[12]
pmavg
0.009879157
> sqrt(diag(adj.glm$var))[12]
[1] NA
> summary(adj.glm)$coef[12,2]
[1] 0.009879123
对lrm用你的这个能得出结果，对glm用summary能得出结果。
谢谢！

n*****n
发帖数: 3123

来自主题: Statistics版 - 【欢迎进来讨论】Residual Analysis 的问题

偶脚着不能统一在一起考虑
linear model下应该比较容易，studentized residual 可以推出distribution, 还有
就是cook's distance.
glm下，可以做变换用类似linear model的方法处理。不过感觉你说的直接用y_i - E(y
_i|x_i)好像没有意义，尤其是y不是continuous的情况
如果repeated measure的可以归结到glm，直接用glm的结果

z*******n
发帖数: 15481

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

R 有一个function可以直接算出结果的哈
glm(y~x1+x2+x3+...,family=binomial(link="logit"))
如需更多的设置你可以用？glm在R里面查看glm function的细节

k*******a
发帖数: 772

来自主题: Statistics版 - Generate and Retrieve Many Objects with Sequential Names

比如楼主的例子可以直接用
plist <- lapply(1:10, function(x) {
set.seed(x)
smp <- Boston[sample(1:nrow(Boston), nrow(Boston), replace = TRUE), ]
glm <- glm(medv ~ ., data = smp)
predict(glm, Boston)
})
cbind函数应该输入一系列的vector，所以作用到plist，因为他是list，所以把它当
vector来了，最后就得到一列的data frame, 这个函数的argument是不定的，所以是
cbind(...)
do.call("cbind", plist)就是把 plist里面的每个element当作一个argument，所以相
当于 cbind(plist[[1]], plist[[2]],...)

塞？

f****1
发帖数: 289

来自主题: Statistics版 - 大家一般用哪个函数在R里面做logistic regression？

我试了polr, clm 和glm三个函数，polr和clm算的结果一样，glm算出的结果不一样。
请问大家一般用哪个做logistic regession 啊？
想做model selction的话，step函数work在polr, clm class的object上吗？还是只能
work在glm object上？
thanks!

a*z
发帖数: 294

来自主题: Statistics版 - Linear Regression

Thank you, hezhi,
yes, the model in R is glm(Z ~ X, family=binomial), glm(Z ~ Y, family=
binomial) and glm(Z~ X + Y, family=binomial).
I do not understand your second comment. Model's estimates of variances of
e1, e2, and e3 should all be positive, am I right?

c***s
发帖数: 70028

来自主题: Headline版 - 美国2011英语常用字报告:“3Q”也上榜名列第8

美国全球语言观察机构今天公布调查报告指出，2011年最常用词组是「阿拉伯之春」和「王室婚礼」，最常用名字是苹果共同创办人贾伯斯，缩写谢谢的「3Q」也登上常用单字榜。
总部位在德州的美国全球语言观察机构(GLM)透过计算机运算程序追踪全球前7万5000份平面和电子媒体、网络和社群网站，统整出字汇量。除了列出年度英语最常用词组，也统计出最常用单字和名字。
调查指出，反映出全球混乱现况的「占领」(occupy)－不管指的是伊拉克或华尔街－以及「赤字」(deficit)在常用单字榜上位居1、2名。而华人世界很爱用的「3Q」也登上英语最常用单字榜的第8名。
GLM总裁裴亚克表示：「今年上榜的字汇，很大程度都反映影响许多已开发国家的政局和经济不确定性，除了几个较突出的例外，像是英国王室婚礼和中国持续崛起。」
裴亚克说，引用贾伯斯(Steve Jobs)名字的数量，比榜上第2名凯达(Al Qaeda)首脑宾拉丹(Osama bin Laden)多出30%。贾伯斯和胰脏癌抗斗8年后于10月不幸辞世，享年56岁。
常用名字榜第3名是311东日本大地震中受到强震、海啸、核灾三重灾害的日本福岛(Fukush... 阅读全帖

c***s
发帖数: 70028

来自主题: Headline版 - 美国调查报告称上海超过东京成亚洲最时尚都市

美国调查机构通过文字分析得出时尚都市排行榜，纽约超巴黎登顶
提到时尚之都，你一定会最先想到巴黎，但现在这个雅号可能要易主了。据英国《每日邮报》2月5日报道，近日美国纽约挤下巴黎，成为全球最为时尚的城市。同时，上海排名超过东京，成为亚洲地区的时尚之先驱。
纽约小胜巴黎
据报道，总部设在美国德州奥斯汀、通过字词使用分析趋势的“全球语言观察”机构（GLM）公布的最新调查结果称，纽约成为新的全球时尚之都。
“全球语言观察”机构过去3年追踪25万个博客、平面媒体与社交平台，寻找和高级女装、成衣及时尚相关的热门字。接着观察这些字的出现频率和前后文，建立相关资料，以列出全球时尚城市排行榜。纽约在与时尚、流行、最佳设计师、街头风格等有关的字汇上，出现次数胜过巴黎、伦敦，但仅小赢巴黎0.5%。
调查报告中巴黎排名第二，伦敦及洛杉矶紧追其后。进入前10位的城市还有巴塞罗那、罗马、柏林、悉尼和安特卫普。亚洲城市也榜上有名，上海排在了第10名，东京排第11，新加坡19，香港20。
纽约在2010年之前连续5年在时尚之都排行中名列第一，其后两年分别被米兰和伦敦挤下来，目前再次夺回第一的宝座。全球语言监测机构的时... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 美机构发布网络年度高频词错误代码404居首位

中新网11月13日电据外媒报道，根据全球语言监测机构(GLM)的研究显示，2013年网
络世界使用频率最高的单词是“404”，一个网络技术错误代码。
总体来讲，网络世界在过去一年的用词偏于负面。除了404之外，排在第二位的单
词是“失败”(fail)，高频词前20中还包括“监视”(surveillance)，“无人机”(
drone)和“赤字”(deficit)等等，充分显示了英语国家去年一年里的社会关注重心。
这家位于德克萨斯州的机构所发布的排名，是基于某一特定的单词、词组或者名字
在英语国家网络世界使用的次数来进行排行的。该机构的数据统计，扫描了博客，社交
网站和全世界27.5万纸质和电子媒体的新闻网站。
入选这份排名的单词必须至少被使用过2.5万次，在各种形式的媒体中都出现过，
并且不能仅被某一特定的国家、职业或社会阶层使用。
在本年度的调查中，GLM将错误代码“404”放在了首位。这个代码在用户点击一个
无效链接或者试图访问一个无法使用的网站时会出现，它经常与排在第二位的“失败”
连用。
在年度20高频词榜单上居于前列的，还包括与社交网络密切相关的“标签”(
hashtag)... 阅读全帖

s****i
发帖数: 116

来自主题: Automobile版 - 租了保时捷，全当小说看吧

这事儿还得从几个月前说起，本来是非常中意大奔的，陆陆续续看了他家的GLC和GLM，
也都试驾了，亲自跑了不下5家dealer。前几家不是没有中意的配置就是价格谈不下来
。但没关系，我本着不怕麻烦自己作的精神，仍旧在看着。
这一日，走进一家大奔店，一个红脖直接迎了过来，问我干嘛。。。。我说我要lease
车，于是要了我的配置，说有，然后进入价格战，因为前段时间对于大奔的研究，价
位已经很熟悉了，直奔主题，看了他给的价格，我说我不能接受，按照套路，应该是他
再去问manager, 然后拿个新价格回来，然后我们再拉锯。这也是坐在我旁边的另外一
个销售桌上人们正在干的事情。这红脖，定定的看着我说:”that is okay!!” 然后仍
旧定定的看着我，嘴角透露出那么的一丝不屑。当时确实懵圈了，没想到原来还能这样
玩儿，看了这么长时间，头一次遇到这样的。二话不说，我也起身直接走了出来。
开车回家的路上，说实话，心里很不爽，你tm不按套路出牌哈，而且那嘴角的不屑是
几个意思。。。正开着呢，就远远的看到了那大大的保时捷logo，那是路过了无数次而
想都没想过的地方，可是这次，心里突然间... 阅读全帖

S*******n
发帖数: 10009

来自主题: Automobile版 - 租了保时捷，全当小说看吧

所以LZ就瞎扯的，glk,glm,gle都没拼对

: GLM是什么车？

: 你研究了这么久连GLE都拼不对？

n******e
发帖数: 476

来自主题: JobHunting版 - 珍惜生命，远离hsbc。 (转载)

pat pat。大家不要这么说楼主了，我觉得可以理解
大公司里有些岁数大的人，对技术理解比较落后的。遇上楼主正好血性方刚，大家互相
不喜欢很正常的。现在这个 job market，招人的人态度比较傲慢是很常见的。毕竟找
工的人是弱势，我同情楼主。
我以前那个组里的 stat 们，都懒得学 proc mixed，就一个 proc glm 用了大半辈子
。所以要去面试，估计人家就盯着你 proc glm 问，你要用 proc mixed　给解决了，
人家就是看你不顺眼。没办法。
还有 proc sql，是有一些岁数大的人不会用，还很不屑的样子。我头一份工作有同事
就是这样的，觉得那是歪门邪道。还有的同事一辈子都呆在一家大公司，就觉得天下都
是她那样做的，张口闭口就说这是标准，其实......不过是她那个公司她那个组的“标
准”而已，夜郎自大。大公司里这样的人很多的。大家互相理解，也许等我们老的时候
，也会这样说不定呢。

a****9
发帖数: 1983

来自主题: Texas版 - 又一个Chinglish 词汇要成正式英语了

3Q上板了，大家继续努力噶。
http://www.worldjournal.com/view/full_Anews/16375114/article-20
美國全球語言觀察機構今天公布調查報告指出，2011年最常用詞組是「阿拉伯之春」和
「王室婚禮」，最常用名字是蘋果共同創辦人賈伯斯，縮寫謝謝的「3Q」也登上常用單
字榜。
總部位在德州的美國全球語言觀察機構(GLM)透過電腦運算程式追蹤全球前7萬5000份平
面和電子媒體、網路和社群網站，統整出字彙量。除了列出年度英語最常用詞組，也統
計出最常用單字和名字。
調查指出，反映出全球混亂現況的「占領」(occupy)－不管指的是伊拉克或華爾街－以
及「赤字」(deficit)在常用單字榜上位居1、2名。而華人世界很愛用的「3Q」也登上
英語最常用單字榜的第8名。
GLM總裁裴亞克表示：「今年上榜的字彙，很大程度都反映影響許多已開發國家的政局
和經濟不確定性，除了幾個較突出的例外，像是英國王室婚禮和中國持續崛起。」
裴亞克說，引用賈伯斯(Steve Jobs)名字的數量，比榜上第2名凱達(Al Qaeda)首腦賓
拉丹(Osama bin... 阅读全帖

a****9
发帖数: 1983

来自主题: WaterWorld版 - 又一个Chinglish 词汇要成正式英语了 (转载)

【以下文字转载自 Texas 讨论区】
发信人: ak1119 (阿卡1119), 信区: Texas
标题: 又一个Chinglish 词汇要成正式英语了
发信站: BBS 未名空间站 (Thu Nov 10 18:26:25 2011, 美东)
3Q上板了，大家继续努力噶。
http://www.worldjournal.com/view/full_Anews/16375114/article-20
美國全球語言觀察機構今天公布調查報告指出，2011年最常用詞組是「阿拉伯之春」和
「王室婚禮」，最常用名字是蘋果共同創辦人賈伯斯，縮寫謝謝的「3Q」也登上常用單
字榜。
總部位在德州的美國全球語言觀察機構(GLM)透過電腦運算程式追蹤全球前7萬5000份平
面和電子媒體、網路和社群網站，統整出字彙量。除了列出年度英語最常用詞組，也統
計出最常用單字和名字。
調查指出，反映出全球混亂現況的「占領」(occupy)－不管指的是伊拉克或華爾街－以
及「赤字」(deficit)在常用單字榜上位居1、2名。而華人世界很愛用的「3Q」也登上
英語最常用單字榜的第8名。
GLM總裁裴亞克表示... 阅读全帖

m******r
发帖数: 1033

来自主题: Programming版 - R 语言求解惑

说R语言之前，说说王yin同学，这人还是很牛b的；牛b的人总有一些与众不同的地方
，普通人无法理解。我看我儿子，好像总爱和我反着来让我哭笑不得他还挺认真。
想想算了由他去吧。
然后说R语言。先说这个glm, 按说向前，向后，逐步回归(forward/backward/stepwise
)应该是glm里面一个重要选项才对。没有这个选项，跑出来的东西我看毫无意义，当
然，你可以说他算了一堆数出来， So ?
第二，你可以用stepAIC，接着往下算。我觉得很awkward, 本来一步的东西分两步走
，最后结果你给我存哪呢？？你让我怎么做automation呢？？这种文档谁又看得懂呢
？？
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
第三，老是写deviance, 我不记得统计书里说什么deviance, 都是说-2L. 当然我才疏
学浅，有懂得给说说，这个deviance是个啥意思？

c**b
发帖数: 661

来自主题: Actuary版 - 请教：有关保费计算

Spline在GLM应该是帮助smooth curve的，GLM不能做credibility
所以就需要融入一些smoothing technology

z****a
发帖数: 58

来自主题: Actuary版 - 想从欧洲转到美国做精算，求建议

大牛能不能介绍一下在北美 GLM现在的热点在哪里 Hierarchical GLM？

s******0
发帖数: 1269

来自主题: Actuary版 - 版山谁有emblem的经验，指导一下

I don't want to lie anything and I didn't mention anything related to emblem
in my resume either. Before they called, I didn't even google emblem.
Personally, I didn't even think they would offer me a phone interview when I
applied for this position.
What I asked is all my personal curiosity. Since sas can do everything of
glm, why did somebody come up with a software to do glm? My purpose is to
get a general idea about how this industry works. If I know that, that will
be a great help for my in... 阅读全帖

c****t
发帖数: 19049

来自主题: Actuary版 - 版山谁有emblem的经验，指导一下

Emblem是个total垃圾；classifier还有啊，不过是另外的license; Emblem和
Classifier都是$3,500 per license per year; 如SAS是server license,有许多users
,平均下来比一个Emblem license可能都要省
Emblem是UK的一家软件公司搞的，现在也是。TW不过是sales front。伊popular是借着
这两年GLM的名头。Emblem里面有很多P&C insurer常用的（老旧的）modeling
procedures,就像SAS里有很多(非）Statistician喜欢的tests
就像受过编程training的都认为SAS是垃圾；受过statistics training的人是绝不会用
Emblem这种垃圾去build model的。
谁告诉你SAS能弄everything about GLM的。P&C insurance data最少也是repeated
measurements, nested data, high heterogeneity, zero-inflated, ... 阅读全帖

z****a
发帖数: 58

来自主题: Actuary版 - 有做non-traditional pricing的么？

刚拿到一个德国工业集团的offer，为集团内国际子公司的化工产品做actuarial
pricing，主要应用GLM模型，软件采用SAS和EMB套件。我纯粹是处于好奇才面了
他们，经理很自豪的说，他们是业内最早应用GLM技术做定价的公司，已经使用了几
年，可预见的未来不会改变。
我个人比较喜欢接触未知领域的新东西，想问问有没有类似经历的大拿？

z****a
发帖数: 58

来自主题: Actuary版 - 有做non-traditional pricing的么？

s******s
发帖数: 13035

来自主题: Biology版 - paired vs unpaired t-test

这个用unpaired显然是错误的。paired的至少比unpaired正确多了。
当然，你说的是seed长了以后再做实验，所以我没说100%正确，
如果你是直接吹起来，然后分两个aliquot直接做实验，那么unpaired
就是100%正解。
其实这都是GLM的特例而已，各自做了简化，关键在于你对那几个random
variation之间的关系的理解，比如是不是有correlation。如果楼主每个实验
还有重复，那么paired也不是很正确，最后直接拉倒GLM里面去看。

g**********y
发帖数: 423

来自主题: Biology版 - machine learning来对GWAS结果建模

glm的y有个link function，binary 一般是logit。
glm的x可以是binary，这里的binary必须作为categorical。

A***A
发帖数: 98

来自主题: Psychology版 - Help: R software

~~~~~~~~~~ do you mean "repeated measurement" data?
well. R isn't the most user-friendly tool to analyze data with, unless your
friend wishes to develop a new statistical method for repeated measures data.
if he or she wants a quick and dirty standard repeated measures analysis of
variance, why not use SAS proc GLM or SPSS GLM or MANOVA procedures?
if what is wanted is repeated measures with invidual growth curve type of
thing, a much better way is to use SAS proc Mixed or SPSS linear Mixed m

p********a
发帖数: 5352

来自主题: Statistics版 - [合集] 发伪币3000 - 不用SAS\IML如何用SAS做矩阵计算?

☆─────────────────────────────────────☆
lulei (嘿嘿嘿) 于 (Sat Oct 6 12:41:16 2007) 提到:
其实就是要做矩阵X和X'的乘积. 但是X的维数太大了,proc iml都不进去.
matlab也是一样.out of memory. 但是raw sas data可以用.
有什么别的办法在sas上可以计算阿.比如2维array,macro之类的.
那位做出来了,发3000mit$
☆─────────────────────────────────────☆
sir ( 郎 ) 于 (Sat Oct 6 13:20:57 2007) 提到:
how about the xpx option in proc glm
i mean trick glm do the calculation for you.
i would do that using c etc

☆─────────────────────────────────────☆
wolfdoctor (狼大夫) 于 (Sat O

t**a
发帖数: 6

来自主题: Statistics版 - 强烈呼唤牛人-question on analysis

my IV is continuous variable. Maybe I should say GLM upstairs. I think in
SPSS, they are the same procedures.
I cannot use SEM because my sample size too small.
Also, anyone heard about SUR (seemingly unrelated regression)? it allows the
error of each equation to be correlated.SUR is an extension of the linear
regression model which allows correlated errors between equations.
I think in GLM, all DVs are entered into one same model, where as in SUR,
there are a few different equations/models with

h******n
发帖数: 232

来自主题: Statistics版 - 请教 sas regression 问题

在proc glm中，可以用class命令得到同一个variable不用的value的coefficient。例
如：
variable x 有1，2，3，4，5，6六种值， y有1，2，3三种值。
proc glm data = test;
class x y;
model z = x y x*y/solution;
run;
我们可以得到
x 1
x 2
......
x 6
y 1
y 2
y 3
x*y 1 1
x*y 2 1
......
x*y 6 3
请问，如何用proc reg 得到以上结果？如果用dummy variable，怎么处理x*y?有没有
办法不用把所有的dummy variable全列出来一个一个相乘？
谢谢！

z****k
发帖数: 1057

来自主题: Statistics版 - 极菜的SAS问题 -- 最简单的线性回归

proc reg要研究两个变量的interaction是不是必须在data当中手动乘起来？
有没有简便的办法？
或者，是不是能用proc glm替代一下？我知道glm是支持*的
谢谢

x*******i
发帖数: 1791

来自主题: Statistics版 - 问个关于hierarchical bayesian model的问题

两个方法。一般解法就是把latent variable 积分掉。这样就剩下观测值和参数了。但
是很多时候，这个多重积分很难做。
另一种方法就是，做一个类似于gibbs的循环，先用y和初始参数p估计一组 h, 再用 h
估计参数p；然后循环，到convergence.
cluster, glm, miss data 问题都会很常用这个letent variable方法。
比较容易理解的有，glm里面，有一个bayesian logistic model的解法，你可以搜出来
看看，不是很难。

c**********e
发帖数: 2007

来自主题: Statistics版 - The X'X matrix has been found to be singular ...

When I use solution option in the GLM procedure.
I always got the following message:
NOTE: The X'X matrix has been found to be singular, and a generalized
inverse was used to solve the normal equations. Terms whose estimates
are followed by the letter 'B' are not uniquely estimable.
The model I use is simple while x is 0 or 1.
proc glm data=data_one;
class x;
model y=x/solution;
run;
quit;
It seems that SAS just routinely gives the error where there was no
confounding problem. Whil

a***r
发帖数: 420

来自主题: Statistics版 - 【R】双层loops

我有一个data file，1900*24的matrix，在R中名为“data”
这24列前面五列是基本信息，第六列是phenotype，categorical variable，0/1,后面是genotype dosage，categorical 0/1/2（就是一个pedigree file）
我做了phenotype和genotype的logistic regression
现在想知道这些genotype（SNP）之间pairwise的interaction，用LRT,于是写了如下code：
n=18
result <-matrix(0,ncol=n,nrow=n)
for (i in 1:n-1) {
for (j in i+1:n) {
logit1<-glm(data[,6]~data[,6+i]+data[,6+j],family=binomial(link="logit"),na.action=na.omit)
logit2<-glm(data[,6]~data[,6+i]+data[,6+j]+data[,6+i]*data[,6+j],
family=binomia

p***r
发帖数: 920

来自主题: Statistics版 - 在 R 里面如何循环调用变量名

要反复调用不同的 variables to fit the regression model, it's like
glm(y~x_i, data)
i=1,2,.....n，（n>30）名字一般都很长
但是如果用
i=i+1
names(data)[i]
可以出来变量名，但是放到glm 里面就不对，请问这个问题有什么好的办法么？谢谢啦

w**********y
发帖数: 1691

来自主题: Statistics版 - 金融统计-我的两分钱

有人发信询问.实在才疏识浅,写点愚见,请大家一起讨论.
统计最传统用到金融中的当然就是time series的东西了.经典教科书是Analysis of Financial Time Series (Wiley Series in Probability and Statistics) - Ruey S.Tsay.
time series处理的是discrete time,对应到continuous time下,就是stochastic
process.这个,任何一本关于quantitative finance的书都有介绍. 经典教科书是john hull的'Options, Futures And Other Derivatives'和shreve的'Stochastic Calculus for Finance'的.
真正的统计的东西,真的都是零零散散的应用,比如PCA,copula,VaR.而正规的统计model
,比如GLM之类的,华尔街好像极少极少用到.
保险公司倒是用的比较多,比如DGLM(double glm)/tweedie's compound poisson
有兴趣

B****n
发帖数: 11290

来自主题: Statistics版 - 统计大牛们，菜鸟问个菜鸟问题。

It is equivalent to test the null hypothesis a-b-(c-d)=0
In SAS proc glm or many other procedures can do it. Check estimate or
contrast command in the proc glm.

z**k
发帖数: 378

来自主题: Statistics版 - R: 'ada' Package - how to see its source code?

这个叫做Genetic function，我记得好象是S Language里就有定义的吧（具体记不清楚
了），
有一点点类似C++里面的virtual function，根据不同的object类型来调用不同的函数。同样
类似的
函数还有predict，print等等，你看一下源代码，那个NAMESPACE文件，应该有个
S3method的
函数吧，读一下S3method的CRAN手册就应该清楚了。
其实道理很简单，就是让predict对不同的object调用不同的函数，当你的input是一个
lm的
object的时候，predict就变成了predict.lm，当你的object是glm的时候，predict就
变成
了predict.glm，以此类推。因为绝大多数统计模型都需要做预测，利用Genetic
Function就不
再需要根据不同的object来命名预测函数。
R里面这样的函数很多，几乎每一个package都会用到，你可以写一个简单的package实
现一下
default print功能就了解了。

P****d
发帖数: 113

来自主题: Statistics版 - can SAS implement L1 Regularized Logistic Regression?

I do not have any idea about this function or package.
But logistic regression is a special case of GLM.
So maybe you can specify "link function" to be "logit"
and "distribution" to be "binary", then the GLM is logistic.

A*******s
发帖数: 3942

来自主题: Statistics版 - 找工作总结 [下]

先说说拿到这个offer的一些过程。一直盯着几间大银行的网站，五月初发现local有个opening，马上投简历。两三个星期之后HR做了phone screen，几天之后和HM还有未来的一个同事进行了phone interview。6月底onsite，onsite后半个小时电话通知了口头offer。考虑到拖家带口不好挪窝，而且offer在我这鸟地方已经算很不错的了，没有讨价还价就接受了。 
 言归正题，接下来写写我觉得值得和大家分享的一些面试经验。这些经验不仅仅是来自于我拿到的offer，也有我对同类型opening面试的一些总结，和与朋友交流的一些经验(主要是statisticians/credit risk modeling at banks). 面试需要准备的技术问题TQ主要包括几方面: 
 1. GLM. 这个包括了整个过程，从一开始的data cleaning and transformation, outlier detection, missing valuerelated..., etc. 到mulitcollinea... 阅读全帖

w******a
发帖数: 25

来自主题: Statistics版 - imputation question?thanks

Here is an R example to impute one or two missing data in each record:
The data will look like
col1 col2 col3
x
x x x
x x
x x
x x x
x
x x x
...
library(Rlab)
alp = 1
K_delta = 2
len_Y1 = 200
#Sample setting:
#Measurment N_
patient Percent
# 1 12
0.18
# 1 2 4
0.05... 阅读全帖

l**********g
发帖数: 426

来自主题: Statistics版 - 如何建模在多个factor影响下，两个变量之间的关系？

以前面过这个问题，答得很烂。如果是在多个factor影响下预测单个变量，可以用
GLM。感觉如果是想寻求两个变量之间的关系，不是很好解释。
例如：有很多学生样本。我们想知道Average hours in front of computer
和GPA的关系。然后这些学生住在10个不同的宿舍：Room1, Room2, ...
Room10。他们来自5个不同的国家，Country1, Country2, ... Country5。
现在想知道Room和Country这两个factor，对于average hours for
computer和GPA之间的关系有什么影响？
我想到的一种方法是用GLM，把GPA作为dependent variable，把#hours for
computer, Room, Country, Room*Country(interaction)作为
independent variable。但不知如何解释。
非常感谢！

l****u
发帖数: 529

来自主题: Statistics版 - 向版上大牛请教个问题

first model:
proc glm data=;
class A;
model y=A B A*B/noint;
run;
second model:
proc glm data=;
class A;
model y=A A*B/noint;
contrast 'A1 VS A2' A*B ..........;
run;
Wait, there is nothing to do with the noint option. These two models are
actually the same.

S********a
发帖数: 359

来自主题: Statistics版 - 【包子】问个从R结果中取值的问题

谢谢，我用在lrm结果上不行
> sqrt(diag(vcov(adj.lrm)))
Error in if (object$family$family %in% c("poisson", "binomial")) 1 else if (
df.r > :
但是用在
> sqrt(diag(vcov(adj.glm))) 就成功了
难道lrm不如glm好用吗？

S********a
发帖数: 359

来自主题: Statistics版 - 【包子】求教Logistic reg SAS和R的结果不同

SAS CODE:
proc logistic data=test2 desc;
class c_pnc (ref='1') marital (ref='1') edu (ref='1') race_eth(ref='1') c_smoke (ref='0') c_drink (ref='0') drug (ref='0') npar_grp (ref='0') c_
magecont (ref='1');
model combpreecl=c_magecont c_pnc marital edu race_eth c_smoke pmavg c_drink drug npar_grp / risklimits;
run;
R CODE：
adj.glm=glm(combpreecl～age2+age3+age4+age5+pnc2+pnc3+marital2+marital3+edu2+edu3+race2+race3+c_smoke+pmavg+c_drink+DRUG+npar_grp, data=mydata2, family=binomial("logit"))
R 里除了p... 阅读全帖

e*******e
发帖数: 2

来自主题: Statistics版 - Biostatistician openings in Covance.

There are currently two job openings in Covance (www.covance.com).
Good luck!
Senior Biostatistician I
Master’s degree in statistics/Biostatistics/Applied statistics with
excellent programming skill in SAS, particularly expertise in IML, Proc GLM
and Proc Mixed, Proc MULTTEST, Proc GENMOD, and power/sample size
calculation of various experimental designs and Macros. Major emphasis will
be on carcinogenicity testing statistics and safety pharmacology (with
Latin Squares with embedded repeated me... 阅读全帖

t*********l
发帖数: 326

来自主题: Statistics版 - resume求教

谢谢回复~~~
但是像GLM那种project需要提什么model seletion method, diagnostic 和validation
之类的吗？还是就用个GLM带过就好了呢？

p*******0
发帖数: 420

来自主题: Statistics版 - 求助SAS计算ｍａｉｎ　ｅｆｆｅｃｔ

The file Housing.txt contains a random sample of recently-sold houses in
two quadrants of a community.
The houses were very similar, differing in only two key respects: some
were located in the northwest quadrant of the
city (along the bordering river), while others were located in the
southeast quadrant of the city (along the bordering
mountains); and some were two-level structures while others were single-
level structures. The square footage (and
other key characteristic typically thought to ... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天