p******x 发帖数: 441 | 1 我申请的quantitative analyst,没题库可以刷,onsite答题只有靠基础。1月份开始
准备的都是data mining,machine learning这些,都没有被问到。 我觉得当时回答都
还可以啊。但是口语不行,而且感觉题目都不容易,我反应也不是很快,脑子一边要想
一边要组织语言。
今天recruiter电话通知说面试的组要pursue other candidates,是不是就是我连bar
都没过啊?
我已经有满意的offer了,下周也还有其他的onsite,大家不用安慰我了。我就是觉得
很可惜,想问问清楚, |
c*****9 发帖数: 1166 | 2 请问他们家面试会让现场写code吗 最近也在准备 谢谢
【在 p******x 的大作中提到】 : 我申请的quantitative analyst,没题库可以刷,onsite答题只有靠基础。1月份开始 : 准备的都是data mining,machine learning这些,都没有被问到。 我觉得当时回答都 : 还可以啊。但是口语不行,而且感觉题目都不容易,我反应也不是很快,脑子一边要想 : 一边要组织语言。 : 今天recruiter电话通知说面试的组要pursue other candidates,是不是就是我连bar : 都没过啊? : 我已经有满意的offer了,下周也还有其他的onsite,大家不用安慰我了。我就是觉得 : 很可惜,想问问清楚,
|
p******x 发帖数: 441 | 3 我面试没要写code,都是统计问题,有基础的有复杂的。你对regression这一块熟悉的
话就不用担心了。
我今天联系了recruiter,问到了我的评价是虽然数学和分析能力不错,但是缺乏相关
的统计知识和概念。怎么说好呢,我老板就是专门搞理论方向的,我面试的时候还觉得
问的问题都太简单,很多回答特意换成了比较高深的说法和对付更general问题的解法
,估计是英文太差没说清楚,面试官也没功夫事后去细查,所以反而弄巧成拙。果然是
装b被雷劈啊,让大家见笑了。 |
h*******e 发帖数: 7 | 4 恭喜拿到满意offer。
能说几个具体的onsite面试题目吗?
能请问楼主是研究什么方向的?不是统计的吗? |
p******x 发帖数: 441 | 5
我就是搞非常理论的统计的,平时用R。今年找工作恶补了data mining,machine
learning那些,结果基本没问到。
具体面试题不好直接说,但是下面2篇文章里的问题都能搞熟了就肯定没问题了:
http://www.mitbbs.com/article_t/Statistics/31277607.html
http://www.mitbbs.com/article_t/Statistics/31263321.html
我感觉onsite的时候,被问到任何题目,先装着冥思苦想,然后再说,而且如果口语不
是很好的话就一定要用很通俗易懂的概念和术语。因为面试官也忙,要面试的人也多,
你如果不是名校或者paper很多的大牛,他们不会太琢磨你说的话。比如扔硬币问题,
你开口就说stopping time和renewal theory,他们可能第一印象就是你连最基本的
conditional expectation都不懂,在扯谈。但是事实上上扔硬币问题的一种简单解法
和记法就是用stopping time和renewal theory的推论。
大家好好加油争取早日出人头地,以后负责面试了也多帮帮咱们中国人。
【在 h*******e 的大作中提到】 : 恭喜拿到满意offer。 : 能说几个具体的onsite面试题目吗? : 能请问楼主是研究什么方向的?不是统计的吗?
|
h*******e 发帖数: 7 | 6 了解。随机过程,楼主很牛。楼主的offer是发考题的职位吗? |
p******x 发帖数: 441 | 7 得到一个strong at math but lack of clarity and knowledge on statistics的评语
,憋半天实在忍不住上来再吐槽一下。
Multicolinearity问题:
首先,最简单的模型 Y=Xb+e 的LS解是b_hat=(X’X)^(-1)X’Y, var (b_hat)=(X’X
)^(-1) sigma^2.
问题:什么是Multicolinearity,
答:如果承认X是rv,才能用”correlated “,否则只能用比较数学的linear
dependent,not of full column rank这种术语。
Multicolinearity又分2种,multicolinearity 和perfect multicolinearity,分别对
应的是X的column vectors 是 nearly linear dependent和 linear dependent(not
full ranked),分别对应的结果就是 (X’X) 是ill-conditioned 和singular. ,前者
是(X’X)^(-1)存在但是norm 非常大,后者是(X’X)^(-1)根本就不存在必须用
generalized/pseudo inverse 来解决,记作(X’X)^(-)。
问题:存在multicolinearity的时候 b_hat 是unbiased的吗?
答案:如果不是perfect multicolinearity,(X’X)^(-1)总是存在的。
E(b_hat)=E((X’X)^(-1)X’Y)=( X’X)^(-1)X’Xb=b,所以unbiased.
如果是perfect multicolinearity,(X’X)^(-1)不存在只能用(X’X)^(-),这个有无穷
多,所以E(b_hat)= (X’X)^(-)(X’X)b根据不同的(X’X)^(-)的选法也是无穷多的,
根本就不是unbiased。
但是E(y_hat)=E(Xb_hat)=X(X’X)^(-)(X’X)b=XX^(+)Xb=Xb=E(Y),跟(X’X)^(-)的选
法无关(Moore-Penrose theorem), 所以y_hat=Xb_hat对Xb永远是unbiased的。我说这
个的时候面试官发笑我很无语啊。。。
问题: multicolinearity的treatment?
很多。最著名的是ridge regression,但是ridge regression只是 Tikhonov
Regularization的special case, 我说出来Tikhonov regularization 大家一副我在扯
淡的表情的我实在很郁闷。。。
今天把这个简要的解答写出来,有要onsite的同学看了以后自己决定该怎么回答。如果
碰巧有在Google工作的朋友看到这个,希望能跟出题的人说一下,如果标准答案没有覆
盖到这些务必更新一下。 |
b********y 发帖数: 559 | 8 ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有
从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat,
而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small
value。 |
p******x 发帖数: 441 | 9
small
是啊,ridge regression其实就是修改OLS的规则,本来是只要norm(y-y_hat)最小,现
在满足这个的无穷多个,所以再加上其他standard或者penality term来限制b_hat,比如
norm(y-y_hat)+norm (T b_hat)最小就行了。又有什么contrained LS。再推广也可
以weighted,就是a norm(y-y_hat)+(1-a)norm (T b_hat)最小。
其实先不说T的取法,光这个norm的取法就有很多其他处理方法,L_1,L_2,L_
infinity, Lasso啥的,真要深入起来就是无底洞。计算数学光解决inverse of
singular matrix就是一大块。
还有人研究什么也不修正,直接做的。好像还有干脆用quantile regression的,我也
不懂。总之就是这个就是无底洞。
我其实就是想吐槽一下,每个phd哪怕是professor,scope都是有限的,很多自己觉得
简单的不值一提的问题,去听个seminar往往会发现原来居然是个大坑。理科男phd很多
口语又不好,你一笑人家就更紧张的说不清。 各位以后当了面试官还请务必nice一点
,别动不动给人下一个lack of clarity and knowledge on XXXX的结论。
【在 b********y 的大作中提到】 : ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有 : 从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat, : 而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small : value。
|
a***r 发帖数: 2677 | 10 想在这边混,口语要加强啊,不能光靠人家nice。 |
p******x 发帖数: 441 | 11
small
真要解决multicolinearity,我自己的理解:
从matrix上来说其实就是not full of rank的cure,如何消除column vectors的linear
dependence。
1.加长column的长度,就是增加行数,说到底就是加入新sample y_i, x_i.很多情况现
有的X出现multicolinearity是因为sample的时候都是在一个特定的stratum里面,只要
sample size大,跳出这个stratum,multicolinearity自然就消除了。
2.减少X的column,PCA等等各种projection persuit的方法来做dimension reduction
, clustering,association rule, casual inferences等等可以扯蛋的无数。最
rude的方法就是delete columns。
唉,这些我都说了。。。
大家自己看着说吧,祝各位好运!马上又offer!
【在 b********y 的大作中提到】 : ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有 : 从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat, : 而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small : value。
|
p******x 发帖数: 441 | 12
是的,这个是关键啊!知道没用,说不出来,说出来人家听不懂,以为你扯淡,这最伤
人。。。
以后就张教训了。
多谢各位听我抱怨啊,说出来就好多了,也不郁闷了。
【在 a***r 的大作中提到】 : 想在这边混,口语要加强啊,不能光靠人家nice。
|
b********y 发帖数: 559 | 13 不知道楼主面的是什么组,具体做什么的。我猜猜你为什么失败了,只是猜哦~~说错不
要见怪。
其实你回答的已经很全面了,但是可能不是他们想要的答案,你回答的这些,1)工业
界大部分情况下data就是multicolinearity, 你加再多sample也没用。反而去掉trend
和seasonality对于去除multicolinearity的效果更好,有个google chief economist
的talk说的就是这个东西。2)减少column,比如PCA,dimension reduction,
clustering 都改变feature space了,他们可能是在不想改变feature的情况下希望处
理multicolinearity的问题,因为feature一改变整个问题就变了,(这里的问题不是
在于如何做prediction,而是如何在learn到一个最准确的coefficient)。这个
coefficient恰恰是他们最关心的东西。
linear
reduction
【在 p******x 的大作中提到】 : : 是的,这个是关键啊!知道没用,说不出来,说出来人家听不懂,以为你扯淡,这最伤 : 人。。。 : 以后就张教训了。 : 多谢各位听我抱怨啊,说出来就好多了,也不郁闷了。
|
m**********4 发帖数: 774 | 14 LZ做统计什么理论方向的?本科是学数学的吗?这些是ONSITE题吗?感觉你和GOOGLE里
的人可能没有TALK在一个频率上. GOOGLE的面试关键是看你能不能出活。举个简单的例
子,关于RIDGE REGRESSION你给了个Tikhonov Regularization。我个人觉得这个答案
可以,但如果我是面试官,我要接着问:
1 这个REGULARIZATION怎么用? 其中有个PARAMETER怎么选?我知道RIDGE是选了
IDENTITY MATRIX,那其他有什么可以接受的PARAMETERS?
2 它的INTUITION是什么?
GOOGLE里面DATA SET很大,没法做很FANCY的东西,顶多就是LASSO之类的。里面统计师
的模型大多简单到离谱,难了也没法跟PM解释。
’X
【在 p******x 的大作中提到】 : 得到一个strong at math but lack of clarity and knowledge on statistics的评语 : ,憋半天实在忍不住上来再吐槽一下。 : Multicolinearity问题: : 首先,最简单的模型 Y=Xb+e 的LS解是b_hat=(X’X)^(-1)X’Y, var (b_hat)=(X’X : )^(-1) sigma^2. : 问题:什么是Multicolinearity, : 答:如果承认X是rv,才能用”correlated “,否则只能用比较数学的linear : dependent,not of full column rank这种术语。 : Multicolinearity又分2种,multicolinearity 和perfect multicolinearity,分别对 : 应的是X的column vectors 是 nearly linear dependent和 linear dependent(not
|