第4页 - 关于glm的讨论汇总 - 话题女王

D*******e
发帖数: 258

问题是你要用哪种regress
可以查以下:
statistics toolbox
optimization toolbox
regress
glm
......
太多了
先得到regression之后的result
画原始数据
hold on;
画后面的曲线
hold off
就可以了

f**y
发帖数: 138

来自主题: Programming版 - 请推荐好的c＋＋下的matrix库

Is it easy to implement 'anova (analysis of variance)' or 'glm (general
linear model)' with those blas or lapack libs?

v*******e
发帖数: 11604

来自主题: Programming版 - data.table谁用过？有那么神吗？

我们用R只做两件事情，1. plot画图 2. call glm之类的统计函数。
想要join，排序，搞column之类，你没有python吗，没有sql吗。就不要用R搞它不擅长
的东西。

v*******e
发帖数: 11604

来自主题: Programming版 - R 语言求解惑

你google这些：stepwise glm regression using r,第一个hit就很好，看人家怎么做
的，里面code例子清清楚楚。

: 首先谢谢你的回答。

: 我是民间数据‘科学家’，听不懂理论讲解，不过还好会看数字。谁能说说说
，如果

: 我想用R做一下的输出，有没有简单的办法。 stepAIC似乎不行，我试过了。

: http://www.stat.pitt.edu/stoffer/stepwiseregression.pdf 这篇文章4各变量，讨论对销售的影响，向前向后逐步法都有了，随便什么方法，看一眼都明白了。

: https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/
Procedures/

: NCSS/Stepwise_Regression.pdf 这篇文章，我只看得懂第六页，因为上面有数
字，有

: 一张大表，先删除第五个变量，因为p=88%, 第二次回归删除变量3，还是因为p
value,

: 剩下三个变量... 阅读全帖

m******r
发帖数: 1033

来自主题: Programming版 - R 语言求解惑

是这篇文章吗？ http://www.utstat.toronto.edu/~brunner/oldclass/appliedf11/handouts/2101f11StepwiseLogisticR.pdf
它的输出是如下：
> # Here was the chosen model from earlier
> redmod1 = glm(low ~ lwt+racefac+smoke+ptl+ht,family=binomial)
>
> backwards = step(fullmod) # Backwards selection is the default
Start: AIC= 221.28
low ~ age + lwt + racefac + smoke + ptl + ht + ui + ftv
Df Deviance AIC
- ftv 1 201.43 219.43
- age 1 201.93 219.93
201.28 221.28
- ptl 1 203.83 221.83
- ui 1 204.03 222.03
- racefac 2 ... 阅读全帖

A*******s
发帖数: 3942

来自主题: Actuary版 - VEE 的选择， Actex 还是大学

你啥VEE没修？我觉得VEE里面对找工作唯一有用的可能是Linear regression，因为有
些公司会问一些GLM相关的technical questions。
如果VEE相关的课程一个都没学过，我觉得你的专业跨度可能有点大了吧，找精算可能
有点难度...

c**b
发帖数: 661

来自主题: Actuary版 - 请教：有关保费计算

rating一般用GLM,decision tree一般别的部门用的多些，比如marketing

c*****r
发帖数: 156

来自主题: Actuary版 - 请教：有关保费计算

谢谢！能具体说说该怎么用么？
比如一般都是用GLM里面的什么link function呢？还有该怎么选取variable啊？（比如
要考虑很多因素：location，age，driving history，etc.）

c*****r
发帖数: 156

来自主题: Actuary版 - 请教：有关保费计算

你说的credibility是指credit score么？我能理解GLM得出来的结果是discrete的，所
以需要用smoothing technology去得到一条quantifiable curve.不知道我的理解对不
对？
那kernel smoothing在保险业中也会用到么？
再次感谢～！

c**b
发帖数: 661

来自主题: Actuary版 - 请教：有关GLM的问题

对data而言，一般就是freq选poisson, severity选gamma,
residual是用来verify 你的assumption

c*****r
发帖数: 156

来自主题: Actuary版 - 请教：有关GLM的问题

谢谢大牛～！
那么link function就是选几个不同的link，然后来比较哪个fit的更好咯？

c**b
发帖数: 661

来自主题: Actuary版 - 请教：有关GLM的问题

一般一个distribution有对应的link function
然后根据你所希望的公式选link function,比如你想要multiplicative formula

s********g
发帖数: 47

来自主题: Actuary版 - 借问一下办绿卡期间job title 变化的事情

有个问题请教大家，我在保险公司做 GLM model，title 是 statistical research
analyst，办perm时公司file的是statistician。现在在办140. 今天老板通知我，说我
的title要变成acturial analyst.工作一点都没有变。
HR 说，只要我的primary job duty 没有变，就不会影响我的绿卡。
是这样吗？有点困惑。

c****t
发帖数: 19049

来自主题: Actuary版 - 新人请教一下，7月毕业，现在还没找到工作是不是来不及了

数学phd都有可能没听说过glm。。。数学phd应该去做矿工啊

s*******0
发帖数: 3461

来自主题: Actuary版 - 新人请教一下，7月毕业，现在还没找到工作是不是来不及了

glm 是什么？
俺只听过 alm啊

c*******n
发帖数: 75

来自主题: Actuary版 - 想从欧洲转到美国做精算，求建议

在哪呆哪吧.
老牌P/C大公司总部很多在欧洲, P/C再保险也明显比美国强, 又是现在SOLVENCY II和
以前GLM 热火朝天的发原地. 知道一些FCAS从北美去了欧洲.

经验，懂一点pricing， SAS比较熟悉，目前在欧洲某大保险公司。刚拿到ASA，英语
比较流利。

z****a
发帖数: 58

来自主题: Actuary版 - 想从欧洲转到美国做精算，求建议

GLM是指generalized linear models 么？
不就是个定价技术吧，很热火朝天么？

和

N****e
发帖数: 146

来自主题: Actuary版 - 想从欧洲转到美国做精算，求建议

GLM= Generalized Linear Model

j**********e
发帖数: 1615

来自主题: Actuary版 - Job Opening

大家好
我们公司(a US actuarial consulting firm)最近想在上海招一个pricing。
希望candidate有较强的统计背景（GLM,machine learning和其他的predictive
modeling），对金融保险行业感兴趣，愿意静下来做数据分析。工作的话应该是P&C为
主，health有可能也会有。
没有特别的专业要求，stats master/phd a plus.
欢迎有兴趣的各位和我联系私信或者email: jackinbottle at gmail dot com
几年前找工作的时候在这个论坛得到过很多帮助包括一次面试的机会，希望你也会觉得
这个信息有帮助。
祝各位新年快乐。

c********r
发帖数: 15

来自主题: Actuary版 - 急问：有个marine p&i mutual insurance club面试

首先，他们是干什么的呀？用什么工具啊？GLM？
其次，我要准备什么？我是经济学加统计教育背景，没有学过精算。
最后，救命啊。。。。。

l*****g
发帖数: 304

来自主题: Actuary版 - 有人了解progressive这个公司么，求指点

据说excel能做GLM logistic啊呵呵

c**b
发帖数: 661

来自主题: Actuary版 - 版山谁有emblem的经验，指导一下

software for GLM

s******0
发帖数: 1269

来自主题: Actuary版 - 版山谁有emblem的经验，指导一下

i know it is for glm
my question is should the latest version of emblem be based on SAS?
Is that easy to import data from sas or can emblem do data cleaning stuff?

s******0
发帖数: 1269

来自主题: Actuary版 - 版山谁有emblem的经验，指导一下

呵呵，多谢大家的回复，今天又学到了不少东西。
就是这个职位如果有emblem的经验最好，我google了一下，上面很多东西都是旧的，所
以上来问问。
对了，我面的是predictive modeler的职位，我的问题是一般sas可以用来做glm，为什
么还搞出来个emblem，这个软件比sas好在哪里，如果sas能做的东西为什么还要花钱买
emblem？
还有ＩＢＮＲ提到的ｃｌａｓｓｉｆｅｒ是干什么的？

l*****g
发帖数: 304

来自主题: Actuary版 - 包子请问保险公司的technical interview该怎么准备

i hv interviewed with a couple modeling positions and from wat ive
experienced so far,
data manipulation for sure,
data steps and proc procedure in SAS, for SQL i think its good to know the
roll up summarize thing and different property of the table joint
algorithm like randomly splitting data, sorting etc.
how to evaluate the model and rank the variables importance etc.
those r the ones used in daily modeling work
also well prepare for the stat part: some concepts regarding to the
definitions, ... 阅读全帖

g******7
发帖数: 1433

来自主题: Actuary版 - 包子请问r&d部门做modeling要学什么课比较好

我现在是生统的MS，暑假要去一家保险公司r&d部门做modeling 实习。请问课程上出了
statistic inference和regression，还有什么很重要的课需要上（知识工作上会用到
），我现在就在选课，基本所有精算和统计OR的课都可以选
目前想自修的有GLM和data mining，还有advanced data analysis
谢谢大家，说的越详细越好

g******7
发帖数: 1433

来自主题: Actuary版 - 包子请问r&d部门做modeling要学什么课比较好

就这些就够了么。。GLM和data mining，还有advanced data analysis这三门要选2门
的话，哪些比较重要，还是都重要？谢谢

l********l
发帖数: 130

来自主题: Actuary版 - 没有绿卡的同学可以多关注一下Research和Modeling的工作

Frequency/Severity/Pure Premium/Loss Ratio models
Retention
Elasticity
Response/Conversion
Anti-fraud
Underwriting scoring
Catastrophe modeling
...
大部分的模型用GLM就可以搞定。Trees/Random Forest,Neural Network,SVM,GAM,
Mixed Model等有时也会用到，看具体做什么了。Business knowledge，熟悉data，选
择variable,快速roll out一个有效的模型有时比模型本身更重要。
一孔之见。

l********l
发帖数: 130

来自主题: Actuary版 - 分享一点面试经验

我面试的经验也不算丰富，但尽我所能，提供一些信息。
很多面试都会围绕着你的简历深入问一些问题。通常第一个问题就是让你介绍一下自己
。要简短，但是要强调自己最出彩的地方，特别是和申请职位相关的部分。引起他们足
够的兴趣。准备３～５个完整的故事来应付这些behavior interview。这些interview
通常会根据你面试的职位，找到几个在该职位上成功最需要的能力和素质比如应对压力
、creative等等，然后要你从你过去的经历中找出例子证明你有这方面的素质和能力。
准备例子的时候要考虑方方面面，比如解释清楚你当时面临的情况，作出的选择，为什
么那么做，有没有更好的办法等等。不要怕对不同的面试官用同样的例子。对自己做过
的项目，要有精确和完整的理解和确切简洁的描述。比如当时面临的challenge是什么
，如何去approach这个问题，用了什么样的数据和方法，结果如何，你在整个project
里的贡献等等。这些都是最容易最好准备的。
比较难以预测的技术方面的面试，可以很难，也可能很简单，主要要靠平时的积累。P&
C modeling 90%的情况都可以用GLM（包括Logisti... 阅读全帖

l********l
发帖数: 130

来自主题: Actuary版 - 分享一点面试经验

g*********r
发帖数: 2847

来自主题: Actuary版 - 有做non-traditional pricing的么？

刚工作的时候给一个哥们打下手做了个模型卖了，只了解点皮毛。感觉统计版不少人做
GLM，技术问题啥的去那问吧。

g*********r
发帖数: 2847

来自主题: Actuary版 - 有做non-traditional pricing的么？

刚工作的时候给一个哥们打下手做了个模型卖了，只了解点皮毛。感觉统计版不少人做
GLM，技术问题啥的去那问吧。

K**r
发帖数: 2193

来自主题: Actuary版 - 要不要转去Big Data部门 (转载)

【以下文字转载自 DataSciences 讨论区】
发信人: Ktar (Kta), 信区: DataSciences
标题: 要不要转去Big Data部门
发信站: BBS 未名空间站 (Sat Sep 30 01:26:05 2017, 美东)
统计Master，在一家保险公司的精算部门，南加州，现在他们要找个人转去Big Data
Analytics部门，工作的title应该就是data scientist. 可以选择在南加州或者德州。
我平时的工作其实有一部分精算也有一部分的GLM regression， R或者python对于我来
说都没有大问题。
那么问题来了，要转么？或者说这是一个比较好的机会么？我其实对于做project还
是感兴趣的。
另外加州生活成本太高，我觉得就算等精算考试都考完，工资也就120k，生活也就温饱
。德州的大房子还是挺吸引人的。

s*****0
发帖数: 357

来自主题: Biology版 - Question about statistical test for data significance

这不难,具体原理讲起来费劲,简单说说,你不明白再问.
假设你有如下数据 (dataset名字叫做bless_sunnyday)
data bless_sunnyday;
input cell T1 T2 T3 T4;
cards;
1 10 14 8 5
1 16 13 6 7
1 10 14 8 5
1 16 13 6 7
2 10 14 8 5
2 16 13 6 7
2 14 12 8 3
2 11 15 5 2
2 16 13 6 7
2 14 12 8 3
;
run;
proc glm data=bless_sunnyda

s*****0
发帖数: 357

来自主题: Biology版 - Question about statistical test for data significance

一般学校的IT都会提供一些学生版的免费SAS, windows, matlab等等,你去问问,自己
laptop上装一个,以后也能学着写写,很有用.以前整天C++/Perl编程的时候觉得SAS很弱
智,其实真的很好用,不用学得多复杂,只要会input数据生成sas dataset外加一个proc
glm,你所有手头的问题基本都可以解决. 至于你现在这个难题,就把上面的code copy&
paste,除了改动一些具体的measure的值,其他都不用动,直接F8键运行一下. 看你的图,
significance问题不大,如果很strong的话,你还可以加入strong这个词.reviewer说得
也有些道理,因为你用了significant这个词,所以最好有个什么p值来支持一下,要不然
只能说look apparently different.

r*****l
发帖数: 457

来自主题: Biology版 - 吵起来了，关于GWAS

next next generation sequencing出来以后，瓶颈就在于硬件了
几百个marker做矩阵inverse和百万个做inverse，区别就不说了
GLM也许还可以，MLM估计超级计算机也够呛吧

o********r
发帖数: 775

来自主题: Biology版 - ANOVA 请教，谢谢：）

Two way ANOVA will give you 3 p values:
One for each of the main effects and one for the interaction term (whether A
effect is independent of B effect).
Well, after a second look, I am not sure what is your question. You may
have asked whether B has effects (regardless of A). If this is true, check
the p value for main effects of B.
Actually you just need to run linear model or GLM to estimate the p values
in your setting and you can specify the proper model (outcome~A+B or outcome
~A*B) base... 阅读全帖

j*p
发帖数: 411

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

攒人品，顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法，包括GATK, Samtools, Varscan,
SeqGenes, 等，并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验，BWA + GATK 最好，sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing，共4个文件，C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19，你的BWA index 在这里：/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖

j*p
发帖数: 411

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

发帖数: 1

来自主题: Biology版 - 一道药厂computational biology的面试题

只是个简单的两组分比对。数值0-100是nb 分布，log转换后平均值1就变成0了。一般
这种分布用glm求p值，然后p值rank，设定显著化水平为0.05后，用dh法求差异化表达
基因的个数。

K****n
发帖数: 5970

来自主题: Computation版 - probit regression一问

请问有没有现成的教材把maximum likelihood的导数求出来的? 我想对一下,网上居然
google不出来... 我不太放心matlab里的glm方程之类的,那个training的时候震荡比较
大.
另外如果对probit方程的参数设一个gaussian prior,然后求bayesian的
P(data)=Integrate(P(data|parameter)*P(parameter),over parameter)
好像这里用probit方程作P(data|parameter),用Gaussian作P(parameter),在optimize
bayeisan likelihood的时候比较好算?不知道有没有人已经算过?又google不出来...
谢谢!

X*********e
发帖数: 253

来自主题: Economics版 - 请问用R如何实现binary choice logit model

glm(........ family=binomial(logit))

o****o
发帖数: 8077

来自主题: Economics版 - 学ECON的不如学统计的吗？

关键在于你懂不懂背后的原理
我觉得master level的经济学研究生大部分是不懂这些方法背后的原理的
比如决策树的生成原理和依据。你说的胜任作这些model，怎么算胜任？表跟我说你会
用GLM或者用现成的软件生成决策树就算胜任了哈。
要改变他们的看法你就要比人家强，懂得比人家多，否则就忍着吧

f*******r
发帖数: 257

来自主题: Economics版 - cross sectional data的fixed effect

The feasible way is to "demean" every variable by product, including country
dummies. SAS/glm has an absorb statement. You can put country there, then
put product in the class statement. That way both fixed effects are taken
care of.

k*z
发帖数: 4704

来自主题: Mathematics版 - Entry level Data and Optimization Analyst (转载)

【以下文字转载自 Statistics 讨论区】
发信人: kiz (泥偶), 信区: Statistics
标题: Entry level Data and Optimization Analyst
发信站: BBS 未名空间站 (Fri Jun 6 10:55:58 2014, 美东)
日常工作是简单的ETL和performance reporting,项目什么都有，segment,pricing
optimization, operation optimization, performance optimization, heat map.
工作语言是SQL和SAS，Reporting语言是Cognos+VBA+MDX/SSRS,不过以上这些不会不要
紧，可以培训。
需要有基础编程经验，Python, C++,Java，R, Matlab任何语言都可以，会写简单的
simulator和calculator. 这个会面试问到。
需要了解各种模型可以如何解决运营的实际问题，例如：信用估值，精准营销，预测需
求，工作排班，客户分类，市场调查. 涉及到的有glm, logist... 阅读全帖

h****g
发帖数: 28

来自主题: Psychology版 - 再次文问，数据转换的方法

统计方法主要是用GLM的repeated measures
有64个被试做的实验
需要分析2*2、2*3、2*2*3等
现在我最头疼的是将每个被试的平均数给计算出来
现在我用的是最笨蛋的方法，用select cases的
if condition is satisfied命令来选择数据，然后再计算每个人的平均数
前几天是试测，被试少还好说
现在被试多了，花费的时间实在是多啊
急求方法
在这给各位鞠躬乐

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天