由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请问G家onsite完以后招人的组说pursue other candidates就是没过bar吗?
相关主题
Facebook Intern面经bloomberg 面经
新鲜 A家电面经,并吐槽Re: 昨天心塞的电话面试经历 amazon供应链DS职位
问一个机器学习的问题这些爆来爆去的不都是一面之辞么
Machine learning / data science 面经以及一些总结Job opportunity - Quantitative Analyst at the Union Bank, (转载)
PHP怎么这么火啊?【JOBS】我们公司的job opening (Data mining in San Diego)
G家电面一些细节,大家帮忙分析一下(update一下)请问大家是如何准备database design的问题呢?
A家 Research Scientist 电面(求教)Counte offer
报面筋求实习合租收到offer 了(化学),请教个问题.
相关话题的讨论汇总
话题: hat话题: xb话题: onsite话题: 问题
进入JobHunting版参与讨论
1 (共1页)
p******x
发帖数: 441
1
我申请的quantitative analyst,没题库可以刷,onsite答题只有靠基础。1月份开始
准备的都是data mining,machine learning这些,都没有被问到。 我觉得当时回答都
还可以啊。但是口语不行,而且感觉题目都不容易,我反应也不是很快,脑子一边要想
一边要组织语言。
今天recruiter电话通知说面试的组要pursue other candidates,是不是就是我连bar
都没过啊?
我已经有满意的offer了,下周也还有其他的onsite,大家不用安慰我了。我就是觉得
很可惜,想问问清楚,
c*****9
发帖数: 1166
2
请问他们家面试会让现场写code吗 最近也在准备 谢谢

【在 p******x 的大作中提到】
: 我申请的quantitative analyst,没题库可以刷,onsite答题只有靠基础。1月份开始
: 准备的都是data mining,machine learning这些,都没有被问到。 我觉得当时回答都
: 还可以啊。但是口语不行,而且感觉题目都不容易,我反应也不是很快,脑子一边要想
: 一边要组织语言。
: 今天recruiter电话通知说面试的组要pursue other candidates,是不是就是我连bar
: 都没过啊?
: 我已经有满意的offer了,下周也还有其他的onsite,大家不用安慰我了。我就是觉得
: 很可惜,想问问清楚,

p******x
发帖数: 441
3
我面试没要写code,都是统计问题,有基础的有复杂的。你对regression这一块熟悉的
话就不用担心了。
我今天联系了recruiter,问到了我的评价是虽然数学和分析能力不错,但是缺乏相关
的统计知识和概念。怎么说好呢,我老板就是专门搞理论方向的,我面试的时候还觉得
问的问题都太简单,很多回答特意换成了比较高深的说法和对付更general问题的解法
,估计是英文太差没说清楚,面试官也没功夫事后去细查,所以反而弄巧成拙。果然是
装b被雷劈啊,让大家见笑了。
h*******e
发帖数: 7
4
恭喜拿到满意offer。
能说几个具体的onsite面试题目吗?
能请问楼主是研究什么方向的?不是统计的吗?
p******x
发帖数: 441
5

我就是搞非常理论的统计的,平时用R。今年找工作恶补了data mining,machine
learning那些,结果基本没问到。
具体面试题不好直接说,但是下面2篇文章里的问题都能搞熟了就肯定没问题了:
http://www.mitbbs.com/article_t/Statistics/31277607.html
http://www.mitbbs.com/article_t/Statistics/31263321.html
我感觉onsite的时候,被问到任何题目,先装着冥思苦想,然后再说,而且如果口语不
是很好的话就一定要用很通俗易懂的概念和术语。因为面试官也忙,要面试的人也多,
你如果不是名校或者paper很多的大牛,他们不会太琢磨你说的话。比如扔硬币问题,
你开口就说stopping time和renewal theory,他们可能第一印象就是你连最基本的
conditional expectation都不懂,在扯谈。但是事实上上扔硬币问题的一种简单解法
和记法就是用stopping time和renewal theory的推论。
大家好好加油争取早日出人头地,以后负责面试了也多帮帮咱们中国人。

【在 h*******e 的大作中提到】
: 恭喜拿到满意offer。
: 能说几个具体的onsite面试题目吗?
: 能请问楼主是研究什么方向的?不是统计的吗?

h*******e
发帖数: 7
6
了解。随机过程,楼主很牛。楼主的offer是发考题的职位吗?
p******x
发帖数: 441
7
得到一个strong at math but lack of clarity and knowledge on statistics的评语
,憋半天实在忍不住上来再吐槽一下。
Multicolinearity问题:
首先,最简单的模型 Y=Xb+e 的LS解是b_hat=(X’X)^(-1)X’Y, var (b_hat)=(X’X
)^(-1) sigma^2.
问题:什么是Multicolinearity,
答:如果承认X是rv,才能用”correlated “,否则只能用比较数学的linear
dependent,not of full column rank这种术语。
Multicolinearity又分2种,multicolinearity 和perfect multicolinearity,分别对
应的是X的column vectors 是 nearly linear dependent和 linear dependent(not
full ranked),分别对应的结果就是 (X’X) 是ill-conditioned 和singular. ,前者
是(X’X)^(-1)存在但是norm 非常大,后者是(X’X)^(-1)根本就不存在必须用
generalized/pseudo inverse 来解决,记作(X’X)^(-)。
问题:存在multicolinearity的时候 b_hat 是unbiased的吗?
答案:如果不是perfect multicolinearity,(X’X)^(-1)总是存在的。
E(b_hat)=E((X’X)^(-1)X’Y)=( X’X)^(-1)X’Xb=b,所以unbiased.
如果是perfect multicolinearity,(X’X)^(-1)不存在只能用(X’X)^(-),这个有无穷
多,所以E(b_hat)= (X’X)^(-)(X’X)b根据不同的(X’X)^(-)的选法也是无穷多的,
根本就不是unbiased。
但是E(y_hat)=E(Xb_hat)=X(X’X)^(-)(X’X)b=XX^(+)Xb=Xb=E(Y),跟(X’X)^(-)的选
法无关(Moore-Penrose theorem), 所以y_hat=Xb_hat对Xb永远是unbiased的。我说这
个的时候面试官发笑我很无语啊。。。
问题: multicolinearity的treatment?
很多。最著名的是ridge regression,但是ridge regression只是 Tikhonov
Regularization的special case, 我说出来Tikhonov regularization 大家一副我在扯
淡的表情的我实在很郁闷。。。
今天把这个简要的解答写出来,有要onsite的同学看了以后自己决定该怎么回答。如果
碰巧有在Google工作的朋友看到这个,希望能跟出题的人说一下,如果标准答案没有覆
盖到这些务必更新一下。
b********y
发帖数: 559
8
ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有
从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat,
而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small
value。
p******x
发帖数: 441
9

small
是啊,ridge regression其实就是修改OLS的规则,本来是只要norm(y-y_hat)最小,现
在满足这个的无穷多个,所以再加上其他standard或者penality term来限制b_hat,比如
norm(y-y_hat)+norm (T b_hat)最小就行了。又有什么contrained LS。再推广也可
以weighted,就是a norm(y-y_hat)+(1-a)norm (T b_hat)最小。
其实先不说T的取法,光这个norm的取法就有很多其他处理方法,L_1,L_2,L_
infinity, Lasso啥的,真要深入起来就是无底洞。计算数学光解决inverse of
singular matrix就是一大块。
还有人研究什么也不修正,直接做的。好像还有干脆用quantile regression的,我也
不懂。总之就是这个就是无底洞。
我其实就是想吐槽一下,每个phd哪怕是professor,scope都是有限的,很多自己觉得
简单的不值一提的问题,去听个seminar往往会发现原来居然是个大坑。理科男phd很多
口语又不好,你一笑人家就更紧张的说不清。 各位以后当了面试官还请务必nice一点
,别动不动给人下一个lack of clarity and knowledge on XXXX的结论。

【在 b********y 的大作中提到】
: ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有
: 从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat,
: 而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small
: value。

a***r
发帖数: 2677
10
想在这边混,口语要加强啊,不能光靠人家nice。
p******x
发帖数: 441
11

small
真要解决multicolinearity,我自己的理解:
从matrix上来说其实就是not full of rank的cure,如何消除column vectors的linear
dependence。
1.加长column的长度,就是增加行数,说到底就是加入新sample y_i, x_i.很多情况现
有的X出现multicolinearity是因为sample的时候都是在一个特定的stratum里面,只要
sample size大,跳出这个stratum,multicolinearity自然就消除了。
2.减少X的column,PCA等等各种projection persuit的方法来做dimension reduction
, clustering,association rule, casual inferences等等可以扯蛋的无数。最
rude的方法就是delete columns。
唉,这些我都说了。。。
大家自己看着说吧,祝各位好运!马上又offer!

【在 b********y 的大作中提到】
: ridge regression 可以解决model不稳定的问题 (比如你说的无穷多解),但是没有
: 从根本上解决multicolinearity的问题吧?也就是说,b_hat依然并不是true b_hat,
: 而是一个引入prior knowledge 之后的b_hat,这里你的prior knowledge 是b都是small
: value。

p******x
发帖数: 441
12

是的,这个是关键啊!知道没用,说不出来,说出来人家听不懂,以为你扯淡,这最伤
人。。。
以后就张教训了。
多谢各位听我抱怨啊,说出来就好多了,也不郁闷了。

【在 a***r 的大作中提到】
: 想在这边混,口语要加强啊,不能光靠人家nice。
b********y
发帖数: 559
13
不知道楼主面的是什么组,具体做什么的。我猜猜你为什么失败了,只是猜哦~~说错不
要见怪。
其实你回答的已经很全面了,但是可能不是他们想要的答案,你回答的这些,1)工业
界大部分情况下data就是multicolinearity, 你加再多sample也没用。反而去掉trend
和seasonality对于去除multicolinearity的效果更好,有个google chief economist
的talk说的就是这个东西。2)减少column,比如PCA,dimension reduction,
clustering 都改变feature space了,他们可能是在不想改变feature的情况下希望处
理multicolinearity的问题,因为feature一改变整个问题就变了,(这里的问题不是
在于如何做prediction,而是如何在learn到一个最准确的coefficient)。这个
coefficient恰恰是他们最关心的东西。

linear
reduction

【在 p******x 的大作中提到】
:
: 是的,这个是关键啊!知道没用,说不出来,说出来人家听不懂,以为你扯淡,这最伤
: 人。。。
: 以后就张教训了。
: 多谢各位听我抱怨啊,说出来就好多了,也不郁闷了。

m**********4
发帖数: 774
14
LZ做统计什么理论方向的?本科是学数学的吗?这些是ONSITE题吗?感觉你和GOOGLE里
的人可能没有TALK在一个频率上. GOOGLE的面试关键是看你能不能出活。举个简单的例
子,关于RIDGE REGRESSION你给了个Tikhonov Regularization。我个人觉得这个答案
可以,但如果我是面试官,我要接着问:
1 这个REGULARIZATION怎么用? 其中有个PARAMETER怎么选?我知道RIDGE是选了
IDENTITY MATRIX,那其他有什么可以接受的PARAMETERS?
2 它的INTUITION是什么?
GOOGLE里面DATA SET很大,没法做很FANCY的东西,顶多就是LASSO之类的。里面统计师
的模型大多简单到离谱,难了也没法跟PM解释。

’X

【在 p******x 的大作中提到】
: 得到一个strong at math but lack of clarity and knowledge on statistics的评语
: ,憋半天实在忍不住上来再吐槽一下。
: Multicolinearity问题:
: 首先,最简单的模型 Y=Xb+e 的LS解是b_hat=(X’X)^(-1)X’Y, var (b_hat)=(X’X
: )^(-1) sigma^2.
: 问题:什么是Multicolinearity,
: 答:如果承认X是rv,才能用”correlated “,否则只能用比较数学的linear
: dependent,not of full column rank这种术语。
: Multicolinearity又分2种,multicolinearity 和perfect multicolinearity,分别对
: 应的是X的column vectors 是 nearly linear dependent和 linear dependent(not

1 (共1页)
进入JobHunting版参与讨论
相关主题
收到offer 了(化学),请教个问题.PHP怎么这么火啊?
问个辞职的问题G家电面一些细节,大家帮忙分析一下(update一下)
非CS PhD 找Machine Learning 工作求指导A家 Research Scientist 电面(求教)
amazon OR scientist面经报面筋求实习合租
Facebook Intern面经bloomberg 面经
新鲜 A家电面经,并吐槽Re: 昨天心塞的电话面试经历 amazon供应链DS职位
问一个机器学习的问题这些爆来爆去的不都是一面之辞么
Machine learning / data science 面经以及一些总结Job opportunity - Quantitative Analyst at the Union Bank, (转载)
相关话题的讨论汇总
话题: hat话题: xb话题: onsite话题: 问题