第8页 - 关于glm的讨论汇总 - 话题女王

n**m
发帖数: 156

来自主题: Statistics版 - 这是什么design呀？repeated measure and nested design?

http://www.ats.ucla.edu/stat/sas/library/SASAnova_mf.htm
可以用proc glm做

w*****5
发帖数: 515

理论的角度就不说了,我不是统计PHD,GLM就是学过而已..
陈老师的模型从工程上,在某些特殊的应用应该是有一定意义的..
从大多数情况来说:
首先,如果数据符合线性关系,那么直接的线性回归在工程应该是最好的选择..因为需要
的参数少,精确度高..一般不会考虑分段回归,因为这样的话,参数太多,而且陈老师并没
有给出case study,告诉我们他可以在准确度上有多大的提高..
其次,如果是非线性关系,那么最好的方法是利用经验建立非线性的模型...这样的好处
是可以用最简洁的方式来建模..如果用分段的方法,假设对每一段进行线性回归,为了能
够拟合曲线,必须要尽可能细分,这样的话,还是那个问题, 就是参数太多..光参数估计
就够工程人员搞半天了,不用说别的分析了.
陈老师的方法,我觉得可以用在某些特殊的工程应用中,比如某种材料的特性,在一些临
界点以后,性质明显不同.但是准确确定临界点又比较困难, 这时候可能用分段的模型,
通过一些方法来确定临界点,预测效果会提高一些. 但是谈不上对统计学有啥重要的突
破. 如果陈老师想弄这个,那应该要把这个topic变小,才有实际价值.
建议陈老师找几个... 阅读全帖

n*****n
发帖数: 3123

来自主题: Statistics版 - 请教logistic regression

没看明白你前面问的什么意思。
如果你学过generalized linear model, 你就知道怎么回事了。
log(p/(1-p))叫logistic regression.
也可以用其他monotone函数，是glm, 但不叫logistic regression,

o****o
发帖数: 8077

来自主题: Statistics版 - SAS neural network 和 SVM 的macro

有些penalized GLM也许能借力bayes来解决，也算是SAS恐龙程序员目前最后的稻草了。

o****o
发帖数: 8077

来自主题: Statistics版 - SAS neural network 和 SVM 的macro

有些penalized GLM也许能借力bayes来解决，也算是SAS恐龙程序员目前最后的稻草了。

T*******I
发帖数: 5138

来自主题: Statistics版 - 两分法随机模拟试验SAS Code (Part I)

我准备接受goldmember的挑战公布Code。
SAS Code (Part I): Simulation for a Dichotomic Regression wirh Julious's Sample
我要公布的code仅仅是一个关于dichotomic regression simulation的SAS code。是我在4年多前写的。仅仅作了一点小小的更改。我的code写得很笨拙，但it runs good。请大家保存好你的500个随机样本。以备后用。
我将分段公布，这里是第一部分，data generation and random check.
这个例子是想要告诉大家，如果你的分析逻辑正确，根本不需要simulation。
正如我对goldmember说过，在接受这个挑战前，让我问大家几个问题：
如果总体中存在一个临界点，你认为样本临界模型一定在临界点处连续吗？如果你的回答是肯定的，你的哲学的或/和数学和/或统计学的逻辑基础是什么？然后再问问你自己，总体给了你连续性的保证吗？你可以在样本基础上假设总体的连续性吗？为什么？
大家回答了我的这几个问题后我再公布后面的正式算法... 阅读全帖

c*m
发帖数: 1114

来自主题: Statistics版 - 两分法随机模拟试验SAS Code (Part I)

首先临界点这个东西和模型定义相关，有些模型不需要临界点就能把数据回归的很好，
有些模型用含多个临界点的分段模型也未必能回归出好的结果。（比如说polynomial高
阶模型和linear模型的区别）
所以其实应该先讨论下模型选择的合理性，当然这些是题外话：模型没有对错之分，只
有适用不适用之分。
那如果局限于分段linear regression模型，临界点处是不是连续完全取决于你的定义，
你可以假设你的模型在临界点处连续，也可以假设不连续，回归出来的结果针对两种不
同的模型都是正确的。两者的不同之处其实只在于前者比后者多了个连续性的约束。所
以争辩临界模型如何定义更加合理没有太大的意义。
应用中一般都假设模型函数在整个总体中是连续的，这个连续性假设本身并不必要，但
确是一些求解方法的必要前提。现有的大多数优化算法没有连续性这个前提基本无法求
解（那些0阶的优化算法除外）。
所以如果你当然可以做个没有连续性限制的分段线性模型来回归，但现有的大多数优化
算法都不能用(SAS里面的proc glm应该也不能用). 假如说你真的能给出这样一种算法，
还需要进一步讨论它的收敛性收敛半径等细节... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 两分法随机模拟试验SAS Code (Part I)

没错，你的思想代表了数学背景人士的一种普遍的优越感，因为在他们的眼里统计学不过是应用数学的一个分支，属于低级数学学科。搞数学的根本瞧不起搞统计的（这是陈希孺的原话）。而Peter John Huber正是在中科院的数理统计所批评了这种倾向：他们习惯于以数学的确定性思维模式来解决统计学里的非确定性问题。他并因此而期待着能够有一股来自数学以外的强大力量来改变这种现状。这是他1997年11月在中国的演讲。
我想，你的思想中暴露了统计学里的一些“民科级”的数学家们(即那些还没有在思想深处感受到统计学的思维模式的真正精髓及其与数学思维模式的巨大差别的人，或者是那些还没有完成从数学思维到统计思维的转变的人)有缺陷的思维逻辑。
我们须知，在随机系统中没有什么可以被人为假定，因为一个随机系统等于一个未知系统。既然是未知，又怎么能给定一个结论——空间里的关系是连续的？我在09年的文章就指出了这个假设对于数学式解临界点具有决定性的意义，没有这个假设，从数学的角度将面临一个终极障碍——无解！！！所以，（从数学的角度）必须给定这个假设。然而，一旦给定了这个假设，就等于用了一个根本不存在的确定性取代了一个确定地... 阅读全帖

c*m
发帖数: 1114

来自主题: Statistics版 - 两分法随机模拟试验SAS Code (Part I)

鸡同鸭讲，亏老夫吃饱了撑着给你码了这么多字。
如果你所谓的随机模拟试验用的是SAS的PROC GLM之流，那结果在临界点不连续的情况
下大多是错误的（基本你需要写你的C或者Fortran code来测试并有理论上的收敛及收
敛半径分析).

f***a
发帖数: 329

来自主题: Statistics版 - 【欢迎进来讨论】Residual Analysis 的问题

恩，linear model下我觉得就是看你model的时候怎么规定error term的distribution。
residual follows the same distribution if model is true。
glm的话，fit完model之后得到，E(y_i|X_i)=g^-1(X_i*bhat)，where g() is link
function。然后怎么弄呢？
计算 y_i-E(y_i) follow的distribution，然后residual follows the same
distribution if model is true？
repeated measure的时候，是不是非要在model里加random effect了？不然形成对于一个
object，有m个measurements of response variable and 1 estimate value of
response mean。这样的话，如果每一个measurement都和E(y_i|X_i)做一次计算得出
residual，那么对于每一个object就能得出m个re... 阅读全帖

n*****n
发帖数: 3123

来自主题: Statistics版 - 请教用如何R进行多元longitudinal分析

自己看看书吧。longitudinal的方法很多，mixed random effect, glm, gee，你不说
你要用哪种，没人会闲着没事给你敲字说一遍。你问的问题本来就是一个学期的课

t*****2
发帖数: 94

来自主题: Statistics版 - ##面试过了，问题求解答##

今天去面试一家公司，问了一些统计（基础）如GLM，power, type I error,
permutation test, logistic model 等问题，同时也问了优化的相关的问题。然后要
求上机解决一个实际问题,当场写出报告。
问题如下：
前面介绍了很多背景知识，简单来说如下(记得大致如下)
六个变量，共有600 observations
ID Age FEV Height Sex(M,F) Smoker(non=nonsmoker, current=current smoker)
301 9 1.708 57 Female Non

l***a
发帖数: 12410

来自主题: Statistics版 - 有没有用R做小规模并行计算的？

sas目前threads enabled procedure有
Base SAS engine indexing
Base SAS procedures: SORT, SUMMARY, MEANS, REPORT, TABULATE, and SQL
SAS/STAT procedures: GLM, LOESS, REG, ROBUSTREG.
我不确定它们是不是trivial的。。。我是现在的疑问是，按照前面那个paper的方法试
验，不管是不是threads enabled的proc在运行效率上都没有提高，那这些paper讲解的
什么 rsubmit/endrsubmit 有什么用

功能

s*******2
发帖数: 499

来自主题: Statistics版 - 在RUN一段SAS CODE

I once run a data with 7500000 observation and 20 covariates using the mixed
effect model with SAS. It takes sometime, but only 2 hours.
Maybe your computer is not good enough.
Which proc do you use? I know one glm mixed effect proc is very time-comsuming, but the other one is much faster.

a****y
发帖数: 1035

来自主题: Statistics版 - 包子急求翻译 SAS code

我想把下面几行SAS code 在R里实现，请教牛人指点一二。
请问SAS code里ddfm=kr 和 lsmeans 在R 里有类似的option吗？
proc glm data=sample;
class a b c;
model y = a b c*a;
random c*a /test;
lsmeans a /stderr pdiff;
run;
proc mixed data=sample;
class a b c;
model y = a b /ddfm = kr;
random c*a;
lsmeans a /pdiff;
run;
谢谢先！！！

d*******y
发帖数: 1154

来自主题: Statistics版 - 统计phd的方向重要吗

Yes, it's important.
Pharm tends to hire ppl with survival/clinical trial background
Banks/Insurance tend to hire ppl with GLM/machine learning background

y****o
发帖数: 626

来自主题: Statistics版 - 统计phd的方向重要吗

那如果不是搞survival/clinical trial 和 GLM/machine learning background的？
该怎么做才能增加自己的这些背景呢？

l***a
发帖数: 12410

来自主题: Statistics版 - 请教个基本的统计问题

try proc glm

s**********l
发帖数: 395

来自主题: Statistics版 - how to convert a categorical variable into a continuous variable

Now for each categorical variable, it has 20 levels 1-20.
In order to use GLM, I need to convert more than 100 categorical variables
into continuous variables.
Who knows how to do this in SAS? Thanks.

s**********l
发帖数: 395

来自主题: Statistics版 - how to convert a categorical variable into a continuous variable

Sorry, I should mention Genmod rather than GLM in SAS.
I think in Generalized liner model, if the dependent variable follows a
gamma distribution, the predictors can not be categorical variables, can
they?
There are totally 120 categorical variables and each of them have 20 levels.
Therefore, I tried to convert these categorical variables into continuous
variables so that I can build the model; however, I did not know how to do
so.
Who knows? Thanks.

a****g
发帖数: 8131

来自主题: Statistics版 - 新人拜山，请教做SAS programmer主要用哪些procedure？

and can be used for many proportional test, chi-sq, fisher's exact, cmh, etc
probably you also need some widely used model buidling procedures
such as glm, logistic, genmod, catmod,

l***a
发帖数: 12410

来自主题: Statistics版 - proc logisitic 可以处理unbalanced data吗？

为啥不用glm

c*****a
发帖数: 808

来自主题: Statistics版 - 大家来看看这marketing intern是要懂什么的

digital strategies, site and email tactics, search engine marketing, and
more traditional mediums, including print
Key Responsibilities
•Develop and implement statistical analysis that increase the efficacy
of the company's online advertising campaigns
•Develop and implement cutting edge online advertising targeting
algorithms
•Design and implement analysis that incorporate custom survey results,
web behavior data, campaign performance metrics and information from public
databa... 阅读全帖

e*****u
发帖数: 67

来自主题: Statistics版 - which R package can do GLMs with Tweedie distributions?

RT.
Thanks.

z**********i
发帖数: 12276

来自主题: Statistics版 - 问个基本的建MODEL问题

OUTCOME: BMI
PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
所有的PREDICTORS是ORDIANL VARIABLE.
我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
我用了2个方法:
1.
PROC CORR SPEARMAN;
VAR BMI QUESTION1n QUESTION2n...;
RUN;
生成一个CORRELATION TABLE.
2. ANOVA
分别把每个PREDICTOR和BMI放到MODEL里,这一步,我不是很确定.
proc glm data = DATA;
class QUESTION1;
model BMI = QUESTION1;
meansQUESTION1;
run;
quit;
最终,是要建个MIXED MODEL.现在是筛选可用的PREDICTORS.
多谢!!

k*****u
发帖数: 1688

来自主题: Statistics版 - 问个基本的建MODEL问题

anova为什么要一个一个的来呢？简单的backward variable selection是全部
predictor放进去，然后把不显著的去掉。
而且第一步算了他们的correlation，应该考虑把predictor相关性很强的去掉。要不然
会有复共线性的问题。当然也要考虑实际的意义。
ps，前天刚刚看到statcompute的一个paper，如果predictor不是线性的，用GAM没法解
释predictor的时候，他们用CARD或者别的先对predictor做prediction。然后再做GLM。
希望有实际经验的大牛们出来说说还可以怎么搞。

A*******s
发帖数: 3942

来自主题: Statistics版 - 问个基本的建MODEL问题

啥文章呢？card还是cart？

GLM。

z**********i
发帖数: 12276

来自主题: Statistics版 - 问个基本的建MODEL问题

第一步的CORRELATION之后,是要把相关很强的去掉,正在做.多谢!
ANOVA这步,需要分别来看吗?
A one-way analysis of variance (ANOVA) is used when you have a categorical
independent variable (with two or more categories) and a normally
distributed interval dependent variable and you wish to test for differences
in the means of the dependent variable broken down by the levels of the
independent variable.
因为样本比较大,虽然每组的MEAN比较接近,但用F计算的P还是有显著性.另外,
PREDICTOR是ORDINAL,但BMI并不是随着增加或降低.
BACKWARD是用PROC GLMSELECT吧? 以前没用过,去研究一下.
另外,QUESTION5,6,7是相同B... 阅读全帖

S******y
发帖数: 1123

来自主题: Statistics版 - How to paralell logistic regression estimation?

I have finally got Hadoop working on my Linux box. Next I would like to try
to see if I could to parallel model estimation for some commonly used models
such as logistic regression.
My question now is - how to paralell gradient descent for logistic model
estimation for real large data set?
Any thoughts would be greatly appreciated. Thanks in advance!
PS. See R code below. If needed, I could rewrite the following code in Java
or Python. But the question is how to decompose the following estimatio... 阅读全帖

z**********i
发帖数: 12276

来自主题: Statistics版 - 还是个MODEL问题

我的这个是SIMPLE LINEAR.用PROC GLM来做的.
如果是LOGISTIC的话,就另说了.
谢谢回复!

z**********i
发帖数: 12276

来自主题: Statistics版 - 还是个MODEL问题

看P值,每个变量都很显著,但R SQUARE非常小,并且,是用GLM来做的.所以,很纠结.

T*******I
发帖数: 5138

来自主题: Statistics版 - 问一个简单的问题：一个data set有100个变量（列），每列有1000个观测值，怎么找每个变量里面的outlier？

如果嫌敲一个个变量名麻烦，一个简单的办法是将实际变量名改为变量名序列X1, X2,
X3...., XM。为此，你需要建立一个专门的变量名数据集记录这个对应关系。可用以下
语句
data newset;
set oldset;
renmane xhy = X1
zdgf = X2
......
vmn = Xm;
run;
变量名数据集可以用proc contents来获得，然后输出到excel中，它将在第1列，在excel的第二列的第一行输入X001(如果你的最大变量个数在三位数以内的话), 然后单击该格，向下拖拉直至你要的个数，excel会自动生成一个序列
X001
X002
....
X999
上述操作是为原始数据库中的变量没有label时而设计的。如果嫌上述操作麻烦，可以用下面的code:
data newset;
set oldset;
X1 = xhy;
X2 = zdgf;
......
Xm = vmn;
drop o... 阅读全帖

c*****t
发帖数: 1712

来自主题: Statistics版 - 发一个job opening

job description 如下。公司是一个consulting firm（是那种传统的咨询公司，非猎
头），职位是full time的，办H1b,地点在San Francisco, CA。最主要是SAS，工作经
验的话，有一到两年最好，fresh也可以考虑。有意者，请站内联系。
Job Description: Statistical(SAS) Analyst
Analysts collect and analyze data to develop critical insights for our
clients' issues. As an Analyst, you will:
• Utilize and leverage business analytics, statistical models, and
information technologies to determine potential sales of a product or
service.
• Work on a team to implement cons... 阅读全帖

A*******s
发帖数: 3942

来自主题: Statistics版 - 一个理论题

不懂...不过你要是用GLM的方法来搞得话，啥AIC，BIC应该是general的吧

s*r
发帖数: 2757

来自主题: Statistics版 - Need help! 如何用sas做一个n*n的count tabulate

我在ods table里面找了半天没找到，这个和proc glm不一样呀

PROC

c**i
发帖数: 234

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

感谢楼上的，看来我没说清楚。我的问题是现在已经有log（pi/1-pi），并且是一个连
续分布的变量，看图形比较像gamma distribution的样子，我想问我有了log（pi/1-pi
），并且知道x1和x2，现在想要估计参数b0,b1,b2,该如何估计？是直接用linear
regression么？如果是的话glm（）里面那个family是不是要设置成gamma？谢谢

z*******n
发帖数: 15481

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

如果你知道log（pi/1-pi），那就直接线性回归就行了啊
跟我给你的glm function就没关系
如果你看着像gamma 分布线性回归肯定不靠谱了
尝试加一些 x1^2 和x2^2 然后做线性回归吧

pi

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

你光看distribution of Y是没用的，我们只关心conditional dist of Y。
你这个用GLM就能搞定，如果你这个p是# of events/# of trials, 这个还是最基本的
logistic (Bernoulli/binomial） regression。如果这个p是rates/proportion的话也
可以用beta regression。

pi

z**********i
发帖数: 12276

来自主题: Statistics版 - 请教个最基本的repeated measure

proc glm data=XX;
class time;
model OUTCOME = time;
lsmeans time / pdiff cl adjust=tukey;
repeated time/ type=un sub=SUBJECT;
run;
这样行吗?
多谢回复!

i*****c
发帖数: 1322

来自主题: Statistics版 - Ask for help about R package

I need to calculate standardized regression
coefficients. the glm only gives me nonstandard coefficients. I googled that
I need a package: QuantPsyc. I
downloaded it but had a lot of trouble to install it into R.
I followed the instruction from the internet using:
install.packages("QuantPsyc",repos="http://cran.r-project.org/src/contrib/QuantPsyc_1.4.tar.gz",type="source")
The outcome is as below:
Warning in install.packages("QuantPsyc", repos =
"http://cran.r-project.org/src/contrib/QuantPsyc_1... 阅读全帖

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教linear regression中的subset selection算法

Subset Selection in Regression这本书讲了不少细节，不过我觉得内容有点老。网上
有电子书。
简单来说GLM的automatic selection都是基于likelihood的，一般来说是likelihood
ratio test with pre-specified significance level，当然也可以用AIC，BIC，
cross validation之类的。

leaps
forward

m*****y
发帖数: 229

来自主题: Statistics版 - 如何计算BETWEEN AND WITHIN VARIANCE(包子求帮助)

今天翻回去看了下以前上课的ppt，觉得repeated measure可以。因为用SPSS GLM
repeated measure 的结果里会出现两个table，“test of within subject effect”
和"test of between subject effect"。total variance在第一个table里，between
hospital variance 在第二个table里，所以应该可以知道“between hospital的
effect占总的variance的多少”。
很久前学得了，都快忘光了，也不知道对不对。谢谢你的包子，呵呵。

p*******o
发帖数: 248

来自主题: Statistics版 - 发包子求助！

help(lm)或者help(glm)
解释的很清楚

s**********y
发帖数: 38

来自主题: Statistics版 - R question? I()

What does the I() mean in 'I(agestd^2)'? Thanks
Model3 <- glm(count ~ C(gender,base=2) + agestd + I(agestd^2),
+ family = poisson(link = log), offset = pop)

j**********e
发帖数: 1615

来自主题: Statistics版 - Job Opening

大家好
我们公司(a US actuarial consulting firm)最近想在上海招一个pricing。
希望candidate有较强的统计背景（GLM,machine learning和其他的predictive
modeling），对金融保险行业感兴趣，愿意静下来做数据分析。工作的话应该是P&C为
主，health有可能也会有。
没有特别的专业要求，stats master/phd a plus.
欢迎有兴趣的各位和我联系私信或者email: jackinbottle at gmail dot com
祝各位新年快乐。

l******o
发帖数: 3764

来自主题: Statistics版 - 弱问一个SAS里面求adjusted means的问题

现在有一个dependent variable (dep1), 几个predictors （var1 var2 var3 var4)
var1是个categorical variable，求dep1在var1的几个level上的adjusted means
我以前都这么做（只会这一个）
proc glm data=xxx;
class var1;
model dep1=var1 var2 var3 var4;
lsmeans var1;
run;
但是这次我的var1是ordinary的（其实var1是我把一个continuous variable分成的
quintile)，我这样用是不是就把var1的几个categories当成无序的处理了，会lose
power吧？
我记得老师讲过大概应该是先得出var1=0时dep1的值，然后var1=1时dep1的值就是加上
1 x beta of var1, 以此类推，是这样吗？
可是俺不会sas code 请好心的高手指教
多谢多谢

H****a
发帖数: 403

来自主题: Statistics版 - 自学SAS找工作

typo? HLM? or GLM?

r*****y
发帖数: 199

来自主题: Statistics版 - question about longitudinal data

What SAS procedure are you using? To my knowledge, you can analyze
repeated measure using both GLM and Mixed, each of which requires
different data structure.

i***m
发帖数: 148

来自主题: Statistics版 - 攒rp，发些我近年来找工作的问题总结

很好的经验，然后我加一些自己的经验供大家讨论

SAS
(1) Proc transpose
(2) Merge data的时候要注意什么问题？
a. Have to sort both tables before merging
b. Check what’s the type of merge (one to many, one to one, or many to
many?) --- check duplicates in each table （这条很多经验不够的通常都想不到
，只想到sort)
c. What if you only want to keep the IDs in table a?
--many to many merge, data step 与sql的不同
--missing data在merge时的处理，尤其是primary key有missing时
(3) Array
If you have a data set a with 1000 columns, you want to change all the
mi... 阅读全帖

z**********i
发帖数: 12276

来自主题: Statistics版 - 大家看看这个数据该怎么分析(有包子）？

4.37是OUTLIER?
5个SAMPLING象是5个时间点.
用GLM或MIXED?

treatment a,及
，如
析呢？有包子

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天