由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 攒人品,求bless~ 新鲜面经 - Machine Learning Engineer
相关主题
问一道概率题非csee的engineer做machine learning engineer,办身份会有问题吗
分享两个data scientist职位的面经恳求MACHINE ZONE面经
下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?machine learning startup内推 (转)
Machine learning in action by Peter Harrington学习 使用 spark需要会machine learning理论么
请问machine learning入门级的书哪一本比较好?Leetcode?
问问面试如何出题Machine Learning硕士求推荐
Stanford 免费的 Machine Learning online course 开始了请教各位大牛
求推荐machine learning和data mining的书 (转载)分享一篇有意思的文章Machine Learning: The High-Interest Credit Card of Technical Debt
相关话题的讨论汇总
话题: tp话题: engineer话题: machine话题: disease
进入DataSciences版参与讨论
1 (共1页)
h*********c
发帖数: 78
1
公司就不说了,不是FLAG,面的职位是machine learning engineer
第一次skype和他们的tech lead, 主要聊了一下我以前做过什么,他介绍下那边的情况
,在亲切友好的气氛中结束
第二次skype是和ML engineer,考了三道题:
1.Assume the probability of a certain disease is 0.01.
The probability of testing positive given that a person is infected with the
disease is 0.95 and
the probability of testing positive given the person is not infected with
the disease is 0.05.
What is the probability of being infected with the disease given that you
test positive?
2.
You have 1k machines, each with 1G numbers. So 1T numbers in total. You want
to find the largest 1k out of the 1T.
3. Say you have a bunch of observations x_1 … x_n, all drawn from a uniform
distribution [0, d]. Estimate d.
D******n
发帖数: 2836
2
seems very basic problems.

the

【在 h*********c 的大作中提到】
: 公司就不说了,不是FLAG,面的职位是machine learning engineer
: 第一次skype和他们的tech lead, 主要聊了一下我以前做过什么,他介绍下那边的情况
: ,在亲切友好的气氛中结束
: 第二次skype是和ML engineer,考了三道题:
: 1.Assume the probability of a certain disease is 0.01.
: The probability of testing positive given that a person is infected with the
: disease is 0.95 and
: the probability of testing positive given the person is not infected with
: the disease is 0.05.
: What is the probability of being infected with the disease given that you

i***i
发帖数: 499
3
祝福

the

【在 h*********c 的大作中提到】
: 公司就不说了,不是FLAG,面的职位是machine learning engineer
: 第一次skype和他们的tech lead, 主要聊了一下我以前做过什么,他介绍下那边的情况
: ,在亲切友好的气氛中结束
: 第二次skype是和ML engineer,考了三道题:
: 1.Assume the probability of a certain disease is 0.01.
: The probability of testing positive given that a person is infected with the
: disease is 0.95 and
: the probability of testing positive given the person is not infected with
: the disease is 0.05.
: What is the probability of being infected with the disease given that you

d****n
发帖数: 12461
4
我问个google的题吧。
100万本扫描书,然后单本扫描的时候有5%的错误率。然后设计一个算法找出内容相同
的书。
d******e
发帖数: 7844
5
所以是ML Engineer,而不是ML Scientist。

【在 D******n 的大作中提到】
: seems very basic problems.
:
: the

c********h
发帖数: 330
6
赞!bless~
a*******k
发帖数: 261
7
bless
m******s
发帖数: 1469
8
Bless

the

【在 h*********c 的大作中提到】
: 公司就不说了,不是FLAG,面的职位是machine learning engineer
: 第一次skype和他们的tech lead, 主要聊了一下我以前做过什么,他介绍下那边的情况
: ,在亲切友好的气氛中结束
: 第二次skype是和ML engineer,考了三道题:
: 1.Assume the probability of a certain disease is 0.01.
: The probability of testing positive given that a person is infected with the
: disease is 0.95 and
: the probability of testing positive given the person is not infected with
: the disease is 0.05.
: What is the probability of being infected with the disease given that you

a****8
发帖数: 2771
9
祝融南去万重云
福移汉祚难恢复
楼上箫声随凤史
主人晚入皇城宿
f****l
发帖数: 66
10
第一题和第三题都是比较经典的统计问题,请问楼主是统计系的吗?
相关主题
问问面试如何出题非csee的engineer做machine learning engineer,办身份会有问题吗
Stanford 免费的 Machine Learning online course 开始了恳求MACHINE ZONE面经
求推荐machine learning和data mining的书 (转载)machine learning startup内推 (转)
进入DataSciences版参与讨论
x******m
发帖数: 736
11
这个看上去像是招statistician啊,lz是什么背景啊。
B*******6
发帖数: 103
12
bless~~
h*********c
发帖数: 78
13
不是,我是搞bioinfomatics的,也算是在转行吧

【在 f****l 的大作中提到】
: 第一题和第三题都是比较经典的统计问题,请问楼主是统计系的吗?
h*********c
发帖数: 78
14
对,他们主要还是以实现现有算法为主,不像FLAG一样要开发自己的算法,因为公司还
在成长中。。。

【在 d******e 的大作中提到】
: 所以是ML Engineer,而不是ML Scientist。
y*****d
发帖数: 82
15
1. Bayes Theorem to find posterior conditional probability;
2. many ways - do they ask for the one w/ min computational/communication
costs?
3. estimation of d=2*sum(x_i)/n

the

【在 h*********c 的大作中提到】
: 公司就不说了,不是FLAG,面的职位是machine learning engineer
: 第一次skype和他们的tech lead, 主要聊了一下我以前做过什么,他介绍下那边的情况
: ,在亲切友好的气氛中结束
: 第二次skype是和ML engineer,考了三道题:
: 1.Assume the probability of a certain disease is 0.01.
: The probability of testing positive given that a person is infected with the
: disease is 0.95 and
: the probability of testing positive given the person is not infected with
: the disease is 0.05.
: What is the probability of being infected with the disease given that you

l*******s
发帖数: 1258
16
第二题。能不能有额外的机器?基本思路是1k台各自排序,然后用堆排序。但是总是要
有一台额外的机器用在第二步merge 1k台机器的排序结果放那个heap。另外,如前面所
言,有没有问communication cost?
第三题。感觉可以用Bayesian方法,先给d一个prior distribution,最好是conjugate
,然后根据observation来求d的posterior distribution
a****k
发帖数: 117
17
1. p(TP/d) = 0.95, p(TP/nd) = 0.05, p(d) = 0.01, p(nd)=0.99. We need to find
p(d/TP).
Ans: We can find the answer in this way: p(d/TP) = p(d,TP)/p(TP).
We can calculate p(TP,d)=p(TP/d)*p(d) = 0.95*0.01 = 0.0095.
p(Tp) = p(Tp, nd) + P(Tp, d) = p(Tp|d)p(d) + p(Tp/nd)p(nd) = 0.95*0.01 + 0.
05*0.99 = 0.059
In that case: p(d/TP) = p(d,TP)/p(TP) = 0.0095/0.059 = 0.16.
2. Parallel computing:
2.1 find the largest 1k numbers per machine and discard other numbers. So in
total, we have 1M numbers left.
2.2 Merge these 1M numbers and do a sort in a single machine.
如果是成长的公司,我这个算法可以用现成的Hadoop MapReduce实现。
3. E(x) = d/2 from the property of uniform distribution.
E(x) = sum(x1, x2, x3, ..., xn)/n
z***m
发帖数: 1602
18
uniform distribution的区间估计难道不是 max(x_i)吗?
B********4
发帖数: 7156
19
不是。因为max(x_i)刚好等于d的概率太小了。
用平均值里估测d好一些,会接近一些。
不知道有没有更好的方法,反正我想不出来。

【在 z***m 的大作中提到】
: uniform distribution的区间估计难道不是 max(x_i)吗?
z***m
发帖数: 1602
20
continous uniform distribution, 任何一个点的概率都是零啊,你说的概率小是什么
意思?
你任意估计一个值,都不是区间,都有p(theta^hat) =0。
下面的这个网页,likelihood function 在 max(x_i)的地方最大, 如果用ML 估计,
upper limit的estimate就是max(x_i),我记得这是书上的例题,"statistical signal
processing vol1. estimation" M.Kay的那本
http://math.stackexchange.com/questions/672266/why-does-maximum

【在 B********4 的大作中提到】
: 不是。因为max(x_i)刚好等于d的概率太小了。
: 用平均值里估测d好一些,会接近一些。
: 不知道有没有更好的方法,反正我想不出来。

相关主题
学习 使用 spark需要会machine learning理论么请教各位大牛
Leetcode?分享一篇有意思的文章Machine Learning: The High-Interest Credit Card of Technical Debt
Machine Learning硕士求推荐又要开始找工作了, 想找 machine learning方面的工作机会
进入DataSciences版参与讨论
w**********y
发帖数: 1691
21
五年前面试Bloomberg quant 的时候被问过这个问题
几种经典的统计估计方法和标准:
MLE 结果应该是max
method of moments 应该是均值 * 2
而统计里面很重要的一个概念是UMVUE uniformly minimum variance unbiased
estimation, 这个结果是 (min + max)/2

signal

【在 z***m 的大作中提到】
: continous uniform distribution, 任何一个点的概率都是零啊,你说的概率小是什么
: 意思?
: 你任意估计一个值,都不是区间,都有p(theta^hat) =0。
: 下面的这个网页,likelihood function 在 max(x_i)的地方最大, 如果用ML 估计,
: upper limit的estimate就是max(x_i),我记得这是书上的例题,"statistical signal
: processing vol1. estimation" M.Kay的那本
: http://math.stackexchange.com/questions/672266/why-does-maximum

z***m
发帖数: 1602
22
estimation的结果与criterion(目标函数)的选择有很大关系

【在 w**********y 的大作中提到】
: 五年前面试Bloomberg quant 的时候被问过这个问题
: 几种经典的统计估计方法和标准:
: MLE 结果应该是max
: method of moments 应该是均值 * 2
: 而统计里面很重要的一个概念是UMVUE uniformly minimum variance unbiased
: estimation, 这个结果是 (min + max)/2
:
: signal

B********4
发帖数: 7156
23
对,continous uniform distribution, 任何一个点的概率都是零啊。
但我意思是离散值。如果是连续值,应该是区间。你的例子就是离散的。
看了你的例子,我觉得最大似然法论证正确,现在我也有点迷糊了。但我工作中,就是
用样本的均值来估计实际均值的,所以我也觉得用均值估计应该对的。我发言后面有个
高手说了3个估计方法,我觉得很有道理。
如果我去答题,我会3个方法都用,哪个最大用那个。

么意思?
signal

【在 z***m 的大作中提到】
: continous uniform distribution, 任何一个点的概率都是零啊,你说的概率小是什么
: 意思?
: 你任意估计一个值,都不是区间,都有p(theta^hat) =0。
: 下面的这个网页,likelihood function 在 max(x_i)的地方最大, 如果用ML 估计,
: upper limit的estimate就是max(x_i),我记得这是书上的例题,"statistical signal
: processing vol1. estimation" M.Kay的那本
: http://math.stackexchange.com/questions/672266/why-does-maximum

r**d
发帖数: 6
24
Bless!
n*******y
发帖数: 437
25
学习了
祝福楼主!
1 (共1页)
进入DataSciences版参与讨论
相关主题
分享一篇有意思的文章Machine Learning: The High-Interest Credit Card of Technical Debt请问machine learning入门级的书哪一本比较好?
又要开始找工作了, 想找 machine learning方面的工作机会问问面试如何出题
Azure Machine Learning视频Stanford 免费的 Machine Learning online course 开始了
找DS工作, 一定要懂(甚至精通)machine learning或者statistics求推荐machine learning和data mining的书 (转载)
问一道概率题非csee的engineer做machine learning engineer,办身份会有问题吗
分享两个data scientist职位的面经恳求MACHINE ZONE面经
下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?machine learning startup内推 (转)
Machine learning in action by Peter Harrington学习 使用 spark需要会machine learning理论么
相关话题的讨论汇总
话题: tp话题: engineer话题: machine话题: disease