h********g 发帖数: 496 | 1 applied researcher的问题都有些什么?和software developer的面试有什么不同? | u*****o 发帖数: 1224 | 2 前两天他家hr让我申这个职位,大概是找有machine learning经验的人。。然后我
follow up就不理我了。。不知是不是因为我是fresh的原因,lz是fresh还是有经验的
? 能分享一下背景咩? | h********g 发帖数: 496 | 3 可能是看经验相关度把。我也是fresh,不过我做的个别项目让他们以为我有很多
machine learning的经验。其实我只用到一些很粗浅的machine learning的东西,所以
现在有点心虚啊。 | h********g 发帖数: 496 | 4 面经就发在同一个thread吧
这是个back to back两小时的面试,两轮的流程都是先问了些简历的东西,然后对方介
绍下自己的项目,然后coding。
1. coding题很简单,可能是半research职位,所以coding要求不高?
1) 给一堆document, d1, d2, d3...dn,要求给出 reverse-index: <{word1,
frequence1}, {word2, frequence2} ...>
---document很多,reverse index没法都放在内存里头,所以讨论了下如何partition
---还讨论了下不同document的类型,word之间的delimter可能不同,document预处理等
2) find lowest common parent for two nodes in the tree.
follow question: what's your test cases?
3) print tree nodes in level order
2. machine learning 的题目: 你有很多customer的数据,点击page, 在某个webpage
停留的时间,浏览某个商品,等等。你如何设计算法,得出这个customer的倾向,爱好。
---这个问题我没有答好。我说这是个classification的问题,你有一堆IV,然后DV是
用户类别。所以可以使用classification的方法分类,比如CART, SVM等等。对方追问
,然后呢?我很郁闷的说,然后就得到了我们要的结果了阿...
如果fail了的话,可能就fail在这道题上了吧。有没有牛兄牛妹可以指点下怎么回答这
道题阿 | t**********r 发帖数: 2153 | 5 phone screen?
partition
【在 h********g 的大作中提到】 : 面经就发在同一个thread吧 : 这是个back to back两小时的面试,两轮的流程都是先问了些简历的东西,然后对方介 : 绍下自己的项目,然后coding。 : 1. coding题很简单,可能是半research职位,所以coding要求不高? : 1) 给一堆document, d1, d2, d3...dn,要求给出 reverse-index: <{word1, : frequence1}, {word2, frequence2} ...> : ---document很多,reverse index没法都放在内存里头,所以讨论了下如何partition : ---还讨论了下不同document的类型,word之间的delimter可能不同,document预处理等 : 2) find lowest common parent for two nodes in the tree. : follow question: what's your test cases?
| h********g 发帖数: 496 | 6 对,紧连着的两个phone interviews
【在 t**********r 的大作中提到】 : phone screen? : : partition
| u*****o 发帖数: 1224 | 7 设计题好难。。除了最后一题lz应该答的都不错啊,一定没问题的,bless!
想问一下那道partition document的题你咋答的?我想的是每次用内存处理一小部分,
把结果(hash-table)移到硬盘里,最后处理完再在硬盘里merge。。 或者用类似map/
reduce的办法?预处理怎么答啊?用unix吗?
那个customer personalization的题不知怎么答,如果我答可能从collaborative
filtering上答,设计一个regression model(linear/logistic) y = theta * x, y =
user 喜好, theta = parameter for each user (stay duration, visit frequency
etc), x = feature vector for each page (content...), 每步循环estimate theta
和 x 的值,直到达到optimization...这个你看make sense咩?
partition
理等
【在 h********g 的大作中提到】 : 面经就发在同一个thread吧 : 这是个back to back两小时的面试,两轮的流程都是先问了些简历的东西,然后对方介 : 绍下自己的项目,然后coding。 : 1. coding题很简单,可能是半research职位,所以coding要求不高? : 1) 给一堆document, d1, d2, d3...dn,要求给出 reverse-index: <{word1, : frequence1}, {word2, frequence2} ...> : ---document很多,reverse index没法都放在内存里头,所以讨论了下如何partition : ---还讨论了下不同document的类型,word之间的delimter可能不同,document预处理等 : 2) find lowest common parent for two nodes in the tree. : follow question: what's your test cases?
| u*****o 发帖数: 1224 | 8 我又想了想,可能是用distance matrix做耶,找出和user行为最类似的其他user,从其
他已知users的data来predict这个user的行为。。这个好像比较make sense一点 | h********g 发帖数: 496 | 9
对,大致就是map/reduce的方法。具体划分还可以追问下,比如我划分方法是基于word
的首字母。那么26个字母开头的words,count都是多少,可以估计一个histogram,这
样均分任务就容易了。
=
frequency
theta
【在 u*****o 的大作中提到】 : 设计题好难。。除了最后一题lz应该答的都不错啊,一定没问题的,bless! : 想问一下那道partition document的题你咋答的?我想的是每次用内存处理一小部分, : 把结果(hash-table)移到硬盘里,最后处理完再在硬盘里merge。。 或者用类似map/ : reduce的办法?预处理怎么答啊?用unix吗? : 那个customer personalization的题不知怎么答,如果我答可能从collaborative : filtering上答,设计一个regression model(linear/logistic) y = theta * x, y = : user 喜好, theta = parameter for each user (stay duration, visit frequency : etc), x = feature vector for each page (content...), 每步循环estimate theta : 和 x 的值,直到达到optimization...这个你看make sense咩? :
|
|