由买买提看人间百态

topics

全部话题 - 话题: glm
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
f***a
发帖数: 329
1
我觉得有两个概念很容易弄混,一个是model的goodness of fit,一个是model
selection。
前面一个是判断某一个model和data是不是fit很好,后一个判断一些candidate models
中哪一个和data最吻合。用model selection方法的时候,当你从candidate models找
出最吻合的那个model时,不能直接就判断那个model的goodness of fit就是很好的。
有可能所有candidate models都差,矮子中拔高个的结果而已。
有很多常用的方法,不过最好具体model、具体数据类型具体分析,找到最合适的方法
。譬如AIC就有很多变种,对应不同类型的数据结构。我列举一些希望对楼主有用。
General model selection methods:
1) common tests: wald Z, chi-square, t, F etc
2) likelihood ratio test and its variants
3) information criteria methods: AIC,BIC, a
c******n
发帖数: 380
2
来自主题: Statistics版 - 请问一个统计问题

这个办法不错,在此基础上,也许用logistic regression更合适,since the
dependent
variable seems to be binary,具体用哪个model我也记不清了,得回去看看glm的书
f***a
发帖数: 329
3
来自主题: Statistics版 - 请问一个统计问题
你的意思是先是发现“个头大”(某种特征,打比方的话)的基因会聚集,然后用统计
量T(size)做了
个permutation test。
又发现“质量大”的基因会聚集,然后用统计量T(weight)做了个permutation test。
两个的结果都significant: T(obs) in 95%CI of permutated T's.
这个意思?
然后想知道size, weight是不是影响the gene clustering的significant factor?
如果你是想回答最后一个问题的话,貌似还是用GLM好些吧?我没看出来permutation
test在这
里有啥优势。
h******e
发帖数: 1791
4
来自主题: Statistics版 - sas programmer
简单的很,ttest, means, freq, glm, mixed, sql, transpose, report, sort,
format, printto等。
B******y
发帖数: 9065
5
来自主题: Statistics版 - sas programmer
ttest, means, freq, glm, mixed 这些等统计师给你写好样本,知道到什么地方抓那
些P值之类的就可以了。report, sort, format, printto到是需要Programmer自己琢磨
怎么做好Report了。
f***a
发帖数: 329
6
来自主题: Statistics版 - 怎么用R分析negative binomial regression
glm?
很多pacakges可以用啊
t*********l
发帖数: 778
p********r
发帖数: 1465
8
你直接 proc corr 就行
f***a
发帖数: 329
9
我觉得思路是根据f_1,f_a,f_b 三个分布的特征建立model:
response = lifetime of A
factor = a , b
至于到底用什么model,还得具体情况具体分析。
譬如最简单的:
如果这三个分布都比较符合Normal, a,b影响的只是mean structure, 那么建立如下
model:
A ~ norm(mu,s)
mu= f(a,b) , mu is a function of a,b and the structure of this function
depends on how a,b influence mu.
Parameters in f(a,b) and s need to be estimated with samples from
experiment.
Model shown above is actually a GLM. You better check relative books or
papers and find out what is the most common model people have b
z**********i
发帖数: 12276
10
来自主题: Statistics版 - OPENNING___________ (转载)
Senior SAS Analyst
Shawnee Mission, KS
This individual is responsible providing analytical support for improvement
and research projects primarily focused on the neonatal populations. Present
results to all audience levels in person or through web based technologies.
Qualifications:
Master’s degree in Biostatistics, Statistics, or other quantitative field
required (PhD preferred)
Minimum of 5 years in Health Care Analysis (experience analyzing pediatric
populations preferred)
Experience working ... 阅读全帖
y*****t
发帖数: 1367
11
GLM by time point或者MMRM
d********t
发帖数: 837
12
There are many more , the most popular choice for continuous endpoints
is based on fully specified likelihood and covariance modeling,
possibly with random effects. GEE is often used for categorical
data,but almost never seen with continuous data in practice (maybe
gamma family?). As the usual interest in a clinical trial is for the
treatment effect at a certain timepoint, longitudinal models are mostly
used to account for missing data over time (the only exception I've
seen is to estimate coeff... 阅读全帖
d******e
发帖数: 7844
13
来自主题: Statistics版 - 找工作总结 [下]
stepwise还有一个缺点,就是p>>n的情况下很有可能是ill-posed,不过貌似credit
risk modelling没什么high dimensional的问题

个opening,马上投简历。两三个星期之后HR做了phone screen, 几天之后和HM还有未
来的一个同事进行了phone interview。6月底onsite,onsite后半个小时电话通知了口
头offer。考虑到拖家带
一些面试经验。这些经验不仅仅是来自于我拿到的offer,也有我对同类型opening面试
的一些总结,和与朋友交流的一些经验(主要是statisticians/credit risk modeling
at banks). 面试需要准备的技术问题TQ主要包括几方面
transformation, outlier detection, missing valuerelated..., etc. 到
mulitcollinearity detection, variable/model selection, model fitting 直至最
后的model validation &... 阅读全帖
e***o
发帖数: 180
14
来自主题: Statistics版 - 大家帮我看看这个offer (转载)
好像有些faculty也差不多7,8万的样子,
一个统计硕士还真把自己当回事了,不过是招了去run GLM罢了
d******o
发帖数: 59
15
来自主题: Statistics版 - logistic regression 问题
see paper:
http://www.stat.lsu.edu/faculty/marx/CollinCSDA.pdf
Collinearity diagnostics for logistic regression can use condition index
with variance decomposition methods.
I have a paper discussing about VIF for GLMs It hasn't been published yet.
w******a
发帖数: 25
16
来自主题: Statistics版 - imputation question?thanks
Here is an R example to impute one missing data in each record,half of the code is to make data sample, you probably only need second half,but including them here helps you understand what is going on:
The data will look like
col1 col2
x
x x
x
x x
x x
...
library(Rlab)
alp = 1
Prob_R1 = 0.5
Prob_R0 = 1 - Prob_R1
len_Y1 = 200
K_delta = 2
Y1 = rnorm(len_Y1,mean=0,sd=1)
R1 = rbinom(n=len_Y1, size=1, prob=Prob_R1)
Y2 = rnorm(n=len_Y1,... 阅读全帖
s*****r
发帖数: 790
17
Title - SAS Data Modeler
Duration – 6+ months
Job ID – PRS1236
Location: Hartford, CT
General Information
Statistician with knowledge of Modeling, Structure, Predictive Modeling,
large data analysis, must have SAS proficiency!
Job Description: Statistician Research & Modeling
Description: Travelers is seeking predictive analytics professionals to
improve growth and profitability and create actionable insights through the
use of rigorous statistical analysis. The team meets with senior execu... 阅读全帖
l*********s
发帖数: 5409
18
you don't have to read code to understand the mechanism. For instance, simple
linear regression formula is beta=cov(x,y)/cov(x,x). Both the numerator and
denominator are accumulative in nature and can be computed progressively, just like "
mean".
To
update glm, you can throw away old data and only keep those running totals of sum of squares.
That is why you can chop data into pieces small enough to fit into the RAM.

This
W****N
发帖数: 43
19
来自主题: Statistics版 - proc mix在生统中的应用
请问proc mix 在生统中具体的应用有哪些啊?和proc glm有啥区别?谢谢指教!
j*******9
发帖数: 27
20
来自主题: Statistics版 - proc mix在生统中的应用
proc mix 是测试random var 和 fix var 组合起来的关系,生统上mix model用得比
glm多~ 可以google一下:)
a*****3
发帖数: 601
21
来自主题: Statistics版 - [question] GLMM's application on finance ?
汗 不知道啥事glmm飘过 是不是glm?
l*********s
发帖数: 5409
22
来自主题: Statistics版 - multiequation regression question
sas glm procedure , manova option to get overall F test
w*********y
发帖数: 7895
23
来自主题: Statistics版 - 问个用SPSS分析CATEGORICAL IV的问题
有谁能告诉我怎么在SPSS中分析么?我有4个CATEGORICAL IV, 1个CONTINUOUS DV。
我试了好种方法和GLM,感觉得出的OUTPUT不太对。。。谢谢了。
s******e
发帖数: 101
24
来自主题: Statistics版 - SAS base 水过 攻略
两周前报考sas base exam,从不甚重视,到感觉危机可能不过,再到今天顺利通过,
我从统计版得到了很多有用的信息,现在该是我回报的时候了:)
如果你对sas 一窍不通,但是不太想系统的学习sas,只想搞几套题随便做做混个通过
,相信我,你会比系统的学一遍花更多的时间。我是从sas 50题开始看的,虽然有详细
的解答,我还是觉得这些规则简直是太诡异了,和我们平时用的R和matlab没有什么共
同点。所以在suffer了半天之后,我放弃了,转而去图书馆借了几本书。当然,看那本
官方的Little SAS book是最直接的选择。但一来,那本书是电子版,打印下来废纸张
,二来,那本书不是每个命令段都有输出结果,对初学者来讲有点太难。所以那本适合
在对sas有一定了解后看。我很庆幸我找了一本非常深入浅出的入门书,data analysis
using sas, by C. Y. Joanne Peng. 当然还会有其他的很好的教材。我的结论是,要
找一本自己看着比较舒服比较乐意继续看下去的教材来学习。可以一点都不看那些个文
字。我基本上第一遍只是把所有的命令都在sas里面运行了一遍,熟... 阅读全帖
a****m
发帖数: 693
25
来自主题: Statistics版 - 火烧那什么了。。。。急问GLMM
GLM are extension of LM to cases where data are independent and standard
linear model assumptions are violated, and GLMM just incorporate another
extra random effect.
for Q1, you can not separate those biological and technical variation in the
random effect
For Q2, for independent assumption, you can easily solve those parameter
analytically using ML, however this is not doable in GLMM, you may use some
numerical method to get optimal value of parameter, like pseudo-likelihood
approach.
k*****u
发帖数: 1688
26
来自主题: Statistics版 - proc GLM和proc Reg、proc Genmod的比较
proc mixed也用来做方差分析啊
b*****e
发帖数: 223
27
来自主题: Statistics版 - proc GLM和proc Reg、proc Genmod的比较
赞!很清楚
a****m
发帖数: 693
28
感觉GEE就是GLM的延伸,引入了correlation matrix for responsive variable, 用来
计算
covariance matrix, 但是多了个 over-dispersion parameter.
mixed models, 引入了random effects, 原来的correlation 来自于random effects.
不知道两种方法的优势各在哪里?
b*****n
发帖数: 685
29
各有优势吧,GEE比GLM强在那个working covariance不需要estimate吧
p******r
发帖数: 1279
30
做regression的时候,如果indep var里面有categorical类型的var,比如
salary=experience+edu+error 里edu是categorical变量,值为1 2 3 ,1代表高中
,2代表大学,3代表graduate school。
那我把它当成数字1 2 3然后直接做regression,得出一个beta值
和我把它变成几个dummy var来做one way anova得出几个fix effect的coefficient
这两种做法,在本质上有啥区别呢? 感觉除了手法上有区别,其他比如predict或者衡
量edu对salary的effect来看,没啥大区别啊?
还有在SAS里coding的话,如果edu的变量类型一开始就定义为categorical的话,那用
proc glm是不是就不需要事先create dummy varible?
请赐教!!
a****m
发帖数: 693
31
来自主题: Statistics版 - 请教 这个GLM问题如何回答
可能出现大于1或者小于-1的情况
l******r
发帖数: 18699
32
来自主题: Statistics版 - 请教 这个GLM问题如何回答
我觉得最主要的问题还是在prediction上面
很难想象一个linear model能predict 0-1变量
比方说如果prediction of y是0.51, 那你说是取0 还是1?
这是个问题linear model无法解决
而logistic model会predict 概率 Pr(y=1|x)
当然还有其它问题这里不加赘述
D*********2
发帖数: 535
33
来自主题: Statistics版 - Google 面经
二面,没啥好说的,输的心服口服,实力不行。桑心那~准备专心写thesis了。准备tech面试真是体力活。
1. what are the modeling techniques you have used?
2. what's the difference btw fixed effect model and mixed model? fixed effect Vs. random effect, how would you choose in practice/in your projects.
3. what are the techniques you use in longitudinal models/ survival models.
4. lots of questions about GLM: error structure, link function, estimation method, etc.
5. experience about SAS and R
6. experience of data manipulation
7. say you built a ... 阅读全帖
S********a
发帖数: 359
34
来自主题: Statistics版 - 求 R 学习材料
需要用R做一些模型,比如logistic regression,glm regression 等等,谁有这样的
书能给个link或email给我?包子答谢!!
I*********9
发帖数: 15
35
来自主题: Statistics版 - 一道统计面试题
what is the difference between GLM and linear regression?
Any suggestion for this question?
Thanks!
I*********9
发帖数: 15
36
来自主题: Statistics版 - 一道统计面试题
thanks for your response.
Can you give me more details?
I just checked on line. Both GLM and linear regression use identity link
function. Please correct me if I am wrong.
p******r
发帖数: 1279
37
来自主题: Statistics版 - 一道统计面试题
GLM extends the normal distributed response variable assumption in linear
regression into any form of response variable which is under exponential
family.
b*****n
发帖数: 685
38
来自主题: Statistics版 - 一道统计面试题
Both? I think the link function for GLM is more general.
l****u
发帖数: 529
39
来自主题: Statistics版 - 向版上大牛请教个问题
在consulting练习中,要进行线性分析,以经证实categorical predictor A 和 one
continuous covariate B 有interaction。老师指出要用proc glm。并解释slopes。版
上大
牛在实际工作中会用model y=A B A*B,还是用model y= A A*B
谢谢解答
y******6
发帖数: 47
40
来自主题: Statistics版 - 面试
我也攒点人品:以下题目一个是从银行(risk analyst)一个是从市场调查公司(
statistician)
1. What is left join. What's the difference between left join and right join.
2. Example: the original data set has the input like:
Company Location Profits
A BJ 15,000
SH 56,000
B GZ 34,555
HK 43,222
etc. You want to manipulate the data like:
Company Location Profits
A BJ 15,000
A SH 56,000
B GZ 34,555
B HK 43,2... 阅读全帖
e*****n
发帖数: 15
41
在算SE的时候,SAS 用observed fisher information for glm
R用expected fisher information
所以结果会不同
但是差的应该不是很多吧?

smoke (ref='0') c_drink (ref='0') drug (ref='0') npar_grp (ref='0') c_
drink drug npar_grp / risklimits;
edu2+edu3+race2+race3+c_smoke+pmavg+c_drink+DRUG+npar_grp, data=mydata2,
family=binomial("logit"))
出的coefficient(estimates and SE)不一样呢? 头疼啊
a********s
发帖数: 188
42
来自主题: Statistics版 - 问个Longitudinal study的问题
Longitudinal一般来说是针对subject在不同的时间有着repeated measure的,似乎你
的case不需要用longitudinal方法来说,普通的GLM你试了吗?
D******n
发帖数: 2836
43
来自主题: Statistics版 - Any good text fro GLM?
Want to have a comprehensive and nicely written one.
I have the Faraway book, it is not that nice.
j*******g
发帖数: 33
44
来自主题: Statistics版 - Fitting model, 头大,求建议
正在 fitting a model, right now tried GLM with Poisson and Negative binomial
distribution, the residual plots still sucks. I am thinking zero inflated
NB with count data
Hope I can get some suggestion to deal with scew, 0, and outliers.
Thanks
s*******r
发帖数: 769
45
来自主题: Statistics版 - 续:简历修改
根据几位热心人的建议,做了一下修改,请大家再提宝贵意见:
http://tinyurl.com/67azljr (PDF version)
为方便阅读,我copy了一部分:
QUALIFICATIONS
- 2 years experience in SAS programming and statistical analysis (SAS BASE,
SAS/STAT, SAS/MACRO, SAS/GRAPH, SAS/SQL).
- Proficient in generating data analysis reports (tables, listings, and
graphs, etc.) using SAS.
- Strong analytical and quantitative skills, including regression,
classification, design of experiment, etc.
- Experienced in statistical model building and diagnostics (GLM, Mixed
M... 阅读全帖
C******n
发帖数: 284
46
来自主题: Statistics版 - 【包子】R处理大dataset问题
我遇到过类似的大size和memory问题
一个可能的,但是我未尝试的方法是,在一台64-bit CPU,装有64-bit operating
system,以及8G或以上memory的机器或者cluster上,安装64-bit的R
如果你用来fit model或plot的package不是64-bit的,有可能会有问题,但我不确定
我遇到的问题是fit 一个 4-level random-effects GLM with about 40,000
observations,在R,SAS,Stata中会出现 memory limit的问题,后来用WinBUGS搞定了
所以如果你在fit model过程中出问题的话,可以试一下Bayesian
s*******w
发帖数: 27
47
来自主题: Statistics版 - 正态分布,请教!
多谢各位的指点!!!
总结一下
Run ANOVA 和 CORR 时, 根据 Central Limit Theorem, it is not necessary to
check normality assumption if sample size is big enough.
Run GLM 时, 要看histogram来决定用哪个link func 和 validate the normality
assumption by examinging the residuals.
^-^
D*********2
发帖数: 535
48
来自主题: Statistics版 - Abbott 面经
他家目前有多个opening,希望能对目前在找工作的童鞋们有帮助
背景: fresh phd, 三流小破系, 申请research statistician
0. 给了个大厅做talk,我defense都没这么正式...气氛不是很热烈,被零星问了3、4
个问题,不过可能是我讲的太无聊。
1. 要考SAS,问题很基本,只是我压根没准备!几乎全军覆没。
ATTAIN作用,informat/format区别,proc mixed, proc report column statement
attributes, proc mixed 和 proc glm / proc genmod 区别
2. 做过的projects和thesis几乎每人都问。背景需要认真解释。
3. 多人问到behavior question,比如,intern经历中,喜欢/不喜欢的公司环境;什
么环境最适合你学习,career goal, 最大的优点、缺点。
4. 没有被问tech question。
5. 准备下做clinical trial的相关经历。
6. junior lever statistician 也坐c... 阅读全帖
l******t
发帖数: 2243
49
来自主题: Statistics版 - Abbott 面经
thanks

发信人: Dreamer1122 (MX), 信区: Statistics
标 题: Abbott 面经
发信站: BBS 未名空间站 (Thu May 5 10:49:08 2011, 美东)
他家目前有多个opening,希望能对目前在找工作的童鞋们有帮助
背景: fresh phd, 三流小破系, 申请research statistician
0. 给了个大厅做talk,我defense都没这么正式...气氛不是很热烈,被零星问了3、4
个问题,不过可能是我讲的太无聊。
1. 要考SAS,问题很基本,只是我压根没准备!几乎全军覆没。
ATTAIN作用,informat/format区别,proc mixed, proc report column statement
attributes, proc mixed 和 proc glm / proc genmod 区别
2. 做过的projects和thesis几乎每人都问。背景需要认真解释。
3. 多人问到behavior question,比如,intern经历中,喜欢/不喜欢的公司环境;什
么环境最适合你... 阅读全帖
h***i
发帖数: 3844
50
同学,logistic regression 的估计是用IRLS
这么经典的glm的fitting 的algorithm不记得只能怪你功课没做好了
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)