由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 为啥data science这么强调map reduce这些呢?
相关主题
Statistics in industrial 行业知识系列(banking 第七期) 10月3日周末开课 试听报名公司有一些hadoop的session,大家看看那些值得去听
[挖个坑]数据分析都有哪些开源工具呀?【内部推荐工作】
征集版标Role mining
求教! how to run python programs on a hadoop cluster分享一个Data Scientist的面经攒RP。。 (转载)
初入data science的困惑look alike model 有什么学习资料吗?
转发一个RECRUITER给的工作机会关于转行DS的两个问题
BIG DATA TOPICS新人恳求推荐
questions about SVD and ALSWR for collaborative filtering请问大家有没有直接用java全程写mapreduce的程序的?
相关话题的讨论汇总
话题: data话题: model话题: reduce话题: map话题: ds
进入DataSciences版参与讨论
1 (共1页)
c******r
发帖数: 300
1
似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正
modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕
妇的那个model里面用map reduce的最多就是process raw data into input,至于如何
找input和如何用完全和这些hot topic无关啊。
t****a
发帖数: 1212
2
没错啊,形而下者谓之器,这玩意就是个器,有必要翻来覆去强调吗?
r*******y
发帖数: 626
3
Not necessarily. If you model needs to process large amount of model and can
be coded in map-reduce framework. The whole model implementation could be
done in map-reduce, which is supposed to give you a lot of mileage on data
processing power and speed.
You can check out Mahout, which implements many classical ML models in map-
reduce.

【在 c******r 的大作中提到】
: 似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正
: modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕
: 妇的那个model里面用map reduce的最多就是process raw data into input,至于如何
: 找input和如何用完全和这些hot topic无关啊。

h********3
发帖数: 2075
4
因为实际工程中,modeling是抽象概念上的东西。抽象概念上的东西在实际工程里面才
是“不过而已”的东西。而如何manipulate data才是脚踏实地的具体问题。实际项目
中,遇到不懂model,查查书也就明白了(实际中不用复杂的model)。而如何
manipulate data和一系列的相关的平台设计和操作,需要靠脚踏实地经验累积,不是
看看书就OK的。

【在 c******r 的大作中提到】
: 似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正
: modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕
: 妇的那个model里面用map reduce的最多就是process raw data into input,至于如何
: 找input和如何用完全和这些hot topic无关啊。

c******r
发帖数: 300
5
你说的情况可能问题不是很noisy,怎么build model并不重要吧,我反而觉得知道做什
么后implementment details总是有办法解决的,实在不行找个dev一起做就好了

【在 h********3 的大作中提到】
: 因为实际工程中,modeling是抽象概念上的东西。抽象概念上的东西在实际工程里面才
: 是“不过而已”的东西。而如何manipulate data才是脚踏实地的具体问题。实际项目
: 中,遇到不懂model,查查书也就明白了(实际中不用复杂的model)。而如何
: manipulate data和一系列的相关的平台设计和操作,需要靠脚踏实地经验累积,不是
: 看看书就OK的。

h*h
发帖数: 845
6
When you need analytical results over large amount of data quite frequently,
you will need the analysis to be done in a distributed fashion. If you don
't use a secondary parallel data system like greenplum or RevolutionR, you
will do it on map reduce.
h********3
发帖数: 2075
7
不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可
以运作business的model却难上万倍。
站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行
了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。
最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的
analyst要困难得多,而且价格也更高。
现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是
qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这
方面的人,基本上都不qualify。

【在 c******r 的大作中提到】
: 你说的情况可能问题不是很noisy,怎么build model并不重要吧,我反而觉得知道做什
: 么后implementment details总是有办法解决的,实在不行找个dev一起做就好了

d****n
发帖数: 12461
8
说的有道理。

【在 h********3 的大作中提到】
: 不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可
: 以运作business的model却难上万倍。
: 站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行
: 了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。
: 最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的
: analyst要困难得多,而且价格也更高。
: 现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是
: qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这
: 方面的人,基本上都不qualify。

c******r
发帖数: 300
9
我说的不是我自己的观点,可能大家领域(我们是predictive model in noisy
environment)不一样所以结论不同吧,看来找工作关键还是要看自己的edge在哪里,
不是啥hot就去追啥

【在 h********3 的大作中提到】
: 不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可
: 以运作business的model却难上万倍。
: 站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行
: 了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。
: 最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的
: analyst要困难得多,而且价格也更高。
: 现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是
: qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这
: 方面的人,基本上都不qualify。

n*****3
发帖数: 1584
10
"找个dev一起做" or " 找个analyst" means two mans' job,
two sets of salary. And communication will be expensive between
ppl from diff background.
Company sure like to see one single full-stack DS. instead of
a group.

【在 c******r 的大作中提到】
: 我说的不是我自己的观点,可能大家领域(我们是predictive model in noisy
: environment)不一样所以结论不同吧,看来找工作关键还是要看自己的edge在哪里,
: 不是啥hot就去追啥

h*h
发帖数: 845
11
not exactly.
When we plan our hiring for this year, we also take the following points
into consideration:
1. Redundancy: the fact is that DS is not rocket science, a
developer will need to understand the model behind the code. Thus, have
dedicated developers will provide temporary redundancy to the data scientist
(modeler).
2. Efficiency: one person do it all may not be the most efficient. The
fact is that a great statistician may not be the best MR coder because of
his experience as a developer and his knowledge with the underlying hadoop
data platform. A good developer with ample knowledge about the distributed
data platform is a great asset.
3. Cost: Do you know the price tag for a do-it-all kind of DS? Such people
are also more prone to leave for freelancer consulting opportunities
currently. On the other hand, new statistics grads are really handy and
very trainable.

【在 n*****3 的大作中提到】
: "找个dev一起做" or " 找个analyst" means two mans' job,
: two sets of salary. And communication will be expensive between
: ppl from diff background.
: Company sure like to see one single full-stack DS. instead of
: a group.

D******n
发帖数: 2836
12
development 跟 implementation 很少何在一起。 招一个精通development+一个精通
implementation的人的花销
比一个两方面都精通的少多了。

【在 n*****3 的大作中提到】
: "找个dev一起做" or " 找个analyst" means two mans' job,
: two sets of salary. And communication will be expensive between
: ppl from diff background.
: Company sure like to see one single full-stack DS. instead of
: a group.

n*****3
发帖数: 1584
13
hard to believe this, since Two ppl have double benefits
and the communication case. that means the full- stack
DS will earn at least 250% of single develop or model ppl.

【在 D******n 的大作中提到】
: development 跟 implementation 很少何在一起。 招一个精通development+一个精通
: implementation的人的花销
: 比一个两方面都精通的少多了。

1 (共1页)
进入DataSciences版参与讨论
相关主题
请问大家有没有直接用java全程写mapreduce的程序的?初入data science的困惑
hive 里面的UDF会被几个node同时运行么?转发一个RECRUITER给的工作机会
DS对数据库需要了解多少?BIG DATA TOPICS
求问Facebook的data scientist ETL interview (转载)questions about SVD and ALSWR for collaborative filtering
Statistics in industrial 行业知识系列(banking 第七期) 10月3日周末开课 试听报名公司有一些hadoop的session,大家看看那些值得去听
[挖个坑]数据分析都有哪些开源工具呀?【内部推荐工作】
征集版标Role mining
求教! how to run python programs on a hadoop cluster分享一个Data Scientist的面经攒RP。。 (转载)
相关话题的讨论汇总
话题: data话题: model话题: reduce话题: map话题: ds