由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - Data bricks怎样?
相关主题
做Spark前途咋样啊?hortonworks这个公司如何 (转载)
[hortonworks面经] senior hadoop engineer求问hadoop学习资料
大数据公司Databricks内推WalmartLabs vs Twitter vs Hortonworks
Hadoop Spark 学习小结[2014版]面试犯2了
还有公司会在新项目选择mapReduce吗?MapR Technologies continue hiring a lot of positions
硅谷地区中型 Hot Startup List弱问现在弯曲哪里收普通java屌丝?
hadoop面试和学习总结有人收到过docker的offer么?
[cloudera面试] senior engineerDatabricks 这个公司什么情况?
相关话题的讨论汇总
话题: spark话题: hadoop话题: data话题: mr话题: 公司
进入JobHunting版参与讨论
1 (共1页)
x***4
发帖数: 1815
1
Data bricks怎样?
z****0
发帖数: 4413
2
一般吧

【在 x***4 的大作中提到】
: Data bricks怎样?
a********5
发帖数: 1631
3
据说BAR很高,LZ去了?
c******n
发帖数: 4965
4
有戏
你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一
个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙,
新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop
MR 80%的应用都没了, 就要这些新的 framework 来填补。
4年内肯定能发财

【在 x***4 的大作中提到】
: Data bricks怎样?
a********5
发帖数: 1631
5
然而是开原


hadoop

【在 c******n 的大作中提到】
: 有戏
: 你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一
: 个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙,
: 新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop
: MR 80%的应用都没了, 就要这些新的 framework 来填补。
: 4年内肯定能发财

c******n
发帖数: 4965
6
ft hortonworks cloudera 不是开源?

【在 a********5 的大作中提到】
: 然而是开原
:
: ,
: hadoop

h****e
发帖数: 2125
7
牛公司。

【在 x***4 的大作中提到】
: Data bricks怎样?
s******c
发帖数: 1920
8
yarn和mesos的竞争还算有优势
hadoop mr和spark已经胜负分出了无悬念了


hadoop

【在 c******n 的大作中提到】
: 有戏
: 你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一
: 个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙,
: 新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop
: MR 80%的应用都没了, 就要这些新的 framework 来填补。
: 4年内肯定能发财

h**********n
发帖数: 897
9
4年悬。。
现在年景好,一个cache都能出一家公司,4年后怎么样很难说。
w******g
发帖数: 189
10
数据砖技术很牛,但是商业模式是啥?
相关主题
硅谷地区中型 Hot Startup Listhortonworks这个公司如何 (转载)
hadoop面试和学习总结求问hadoop学习资料
[cloudera面试] senior engineerWalmartLabs vs Twitter vs Hortonworks
进入JobHunting版参与讨论
g*****g
发帖数: 34805
11
这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄
个企业版管理UI,附加服务啥的要 license.
只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。

【在 w******g 的大作中提到】
: 数据砖技术很牛,但是商业模式是啥?
y*d
发帖数: 2226
12
big data啥的毕竟还是相对小众的市场,和linux的市场差太远了
而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的
参考一下,同行业出道更早的Hortonworks才1B的市值
Spark点子不错,但是然并卵
本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都
不奇怪
更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳
定,支持丰富
idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或
service的钱
老土公司愿意出钱,但是要的是成熟通用省心的产品。Spark离这个还有很大距离
三年后Spark或者类似Spark的东西成熟的时候,最好的distribution最好的Service未
必是databricks做的

【在 g*****g 的大作中提到】
: 这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄
: 个企业版管理UI,附加服务啥的要 license.
: 只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。

y*d
发帖数: 2226
13
参考伯克利的另外两个著名项目
FreeBSD和Postgres
说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍
但是伯克利的叫兽从这两个项目赚到钱了吗?
g*****g
发帖数: 34805
14
Hadoop的 committer相对分散,做支持的公司多。Spark相对集中。另外更快的解决方
案意味着适应性越广,附加值越高。
startup没有一定之数,但 H能值 1B,D 的前景就是 几个 B.

行稳

【在 y*d 的大作中提到】
: big data啥的毕竟还是相对小众的市场,和linux的市场差太远了
: 而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的
: 参考一下,同行业出道更早的Hortonworks才1B的市值
: Spark点子不错,但是然并卵
: 本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都
: 不奇怪
: 更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳
: 定,支持丰富
: idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或
: service的钱

g*****g
发帖数: 34805
15
竞争,Linux, MySQL 是更牛的解决方案。MySQL 在史前时代还卖了5亿。Spark没有像
样的竞争。

【在 y*d 的大作中提到】
: 参考伯克利的另外两个著名项目
: FreeBSD和Postgres
: 说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍
: 但是伯克利的叫兽从这两个项目赚到钱了吗?

c******n
发帖数: 4965
16
FreeBSD 没有人用, 只有yahoo 用, 后来也换到linux
就是redhat 这种核心的东西,放到狗一类的大用户,人家自己内部有足够强的内核
developer, 根本用不着你。
Postgres 我不知道, 但是mysql 的公司(black cat 还是什么的) 赚了很多啊。
另外这些公司火不火,50% 是hype, 是VC 和stock market 吹起来的, 你要有
business model, revenue, 但这不是唯一,下一步你必须能吹起来成为火的中心,像
cloud, big data, 什么都是“概念” ------- stock market analyst 懂个屁, 他就
是看周围的人是不是都在追一个新概念。
FreeBSD, Postgres, 甚至mysql , 都是很定型,很1980 的东西, 当然不能成为吹的
poster child

【在 y*d 的大作中提到】
: 参考伯克利的另外两个著名项目
: FreeBSD和Postgres
: 说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍
: 但是伯克利的叫兽从这两个项目赚到钱了吗?

y*d
发帖数: 2226
17
Hadoop的committer多说明用户多,关注的人多
几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有
一个“community”了
现在相对集中反而成优势了
databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新
feature或者bug fix(担心失去对项目的控制力)才是个大问题。
spark搞得再死一点,别人另起炉灶的概率就再大一点
至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?

【在 g*****g 的大作中提到】
: Hadoop的 committer相对分散,做支持的公司多。Spark相对集中。另外更快的解决方
: 案意味着适应性越广,附加值越高。
: startup没有一定之数,但 H能值 1B,D 的前景就是 几个 B.
:
: 行稳

c******n
发帖数: 4965
18
他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution
framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有
直接替代hadoop MR 这种basic building block 的。
再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是
hype, 剩下的部分,也会有人rewrite from scratch

何?

【在 y*d 的大作中提到】
: Hadoop的committer多说明用户多,关注的人多
: 几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有
: 一个“community”了
: 现在相对集中反而成优势了
: databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新
: feature或者bug fix(担心失去对项目的控制力)才是个大问题。
: spark搞得再死一点,别人另起炉灶的概率就再大一点
: 至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?

c******n
发帖数: 4965
19
其实spark 那个RDD 概念, scalding 里面就有, 只不过后者没有把in-memory 的噱头
加进去, 没有火起来

execution

【在 c******n 的大作中提到】
: 他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution
: framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有
: 直接替代hadoop MR 这种basic building block 的。
: 再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是
: hype, 剩下的部分,也会有人rewrite from scratch
:
: 何?

y*d
发帖数: 2226
20
FreeBSD在90年代是很火的,当时用的人比linux多,Jobs的OS X也用了不少FreeBSD的
代码
(好吧,我承认我也没那么老。90年代的部分,是我听公司的老马工讲的)
Postgres麻烦你别传进到mysql啊。postgres在功能上,性能上都比mysql好。但是
mysql的商业
推广更成功。这正好说明了,好的idea和赚钱是两码事
作为老码农,我不过是看过的更多一些。2000年的时候,你说mach(现在还是OS X的内
核),unix是很1970的东西,但是postgres和freebsd可是当时的热门玩意啊。
postgres的ORDBMS和Geometry在90年代后期被认为是数据库的未来,就好比spark现在
被认为是big data的未来
各种概念,如你所说,就是一波一波的炒。我只是举了两个栗子,说明很好的软件,很
好的idea未必就真能赚钱

【在 c******n 的大作中提到】
: FreeBSD 没有人用, 只有yahoo 用, 后来也换到linux
: 就是redhat 这种核心的东西,放到狗一类的大用户,人家自己内部有足够强的内核
: developer, 根本用不着你。
: Postgres 我不知道, 但是mysql 的公司(black cat 还是什么的) 赚了很多啊。
: 另外这些公司火不火,50% 是hype, 是VC 和stock market 吹起来的, 你要有
: business model, revenue, 但这不是唯一,下一步你必须能吹起来成为火的中心,像
: cloud, big data, 什么都是“概念” ------- stock market analyst 懂个屁, 他就
: 是看周围的人是不是都在追一个新概念。
: FreeBSD, Postgres, 甚至mysql , 都是很定型,很1980 的东西, 当然不能成为吹的
: poster child

相关主题
面试犯2了有人收到过docker的offer么?
MapR Technologies continue hiring a lot of positionsDatabricks 这个公司什么情况?
弱问现在弯曲哪里收普通java屌丝?2015年硅谷最火的高科技创业公司都有哪些?
进入JobHunting版参与讨论
g*****g
发帖数: 34805
21
企业应用,价格本来就不是第一位的,好用才是第一位的。JIRA开源一样乖乖有人交钱
。Android也开源,也有人 fork,但是除了中国上不了狗服务其他地区还不是得乖乖跟
狗合作,用 play store. Amazon的就火不起来。只要Spark没有像样竞争,D值几个B
妥妥的。

何?

【在 y*d 的大作中提到】
: Hadoop的committer多说明用户多,关注的人多
: 几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有
: 一个“community”了
: 现在相对集中反而成优势了
: databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新
: feature或者bug fix(担心失去对项目的控制力)才是个大问题。
: spark搞得再死一点,别人另起炉灶的概率就再大一点
: 至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?

c******n
发帖数: 4965
22
你根本就不理解databricks 的定位,
它正好是你说的“很好的软件,很好的idea (未必就真能赚钱 那种)" 的反面。
它的idea一点都不新, 最近几年hadoop echo system 所有人都不约而同地向in-
memory processing 发展(Tez, stinger, presto ..), 它之所以火,正式因为靠上了
这个时髦趋势。
你之前讲的一些例子,正好是你说的 "很好的软件,很
资的时候)。 mach 它再怎么牛, 不做成一个
consumer facing product (OSX), 只能是小众产品。
h********3
发帖数: 2075
23
同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决
定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例
如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术
咨询公司,最重要的是客户关系。

行稳

【在 y*d 的大作中提到】
: big data啥的毕竟还是相对小众的市场,和linux的市场差太远了
: 而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的
: 参考一下,同行业出道更早的Hortonworks才1B的市值
: Spark点子不错,但是然并卵
: 本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都
: 不奇怪
: 更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳
: 定,支持丰富
: idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或
: service的钱

y*d
发帖数: 2226
24
嗯,作为一个research项目,spark是非常成功的
他们的主要意义在于尝试了一些新的方法。其中一些东西对于企业来说,搞起来有点太
冒险了。很适合Bekeley这种用NSF的钱先去试试水
在spark以及其他一些名气小一些的big data项目验证了各种可能性以后,等到前景更
加明朗,会有公司出来开发一些更成熟,考虑更周全的产品。那个时候才知道鹿死谁手
现在的spark如同70年代的unix, 80年代的mach,90年代的netscape,2000年的PDE
还是属于开路趟地雷的阶段
等到大家把这个路数都看清楚了,好戏才开场

execution

【在 c******n 的大作中提到】
: 他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution
: framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有
: 直接替代hadoop MR 这种basic building block 的。
: 再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是
: hype, 剩下的部分,也会有人rewrite from scratch
:
: 何?

y*d
发帖数: 2226
25
是,这些个开源big data公司最大的价值其实是在consulting,而不是那个万把行的小
软件
这个行当不赚钱则已,一旦赚钱,IBM、Oracle、Intel跳进来,分分钟造一个先进一代
的产品出来

【在 h********3 的大作中提到】
: 同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决
: 定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例
: 如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术
: 咨询公司,最重要的是客户关系。
:
: 行稳

c******n
发帖数: 4965
26
spark 绝对不止是 “一个research 项目,有新方法“,
实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力
做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为
一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY???
就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR
replacement.
你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被
VC/market 吹起来

【在 y*d 的大作中提到】
: 嗯,作为一个research项目,spark是非常成功的
: 他们的主要意义在于尝试了一些新的方法。其中一些东西对于企业来说,搞起来有点太
: 冒险了。很适合Bekeley这种用NSF的钱先去试试水
: 在spark以及其他一些名气小一些的big data项目验证了各种可能性以后,等到前景更
: 加明朗,会有公司出来开发一些更成熟,考虑更周全的产品。那个时候才知道鹿死谁手
: 现在的spark如同70年代的unix, 80年代的mach,90年代的netscape,2000年的PDE
: 还是属于开路趟地雷的阶段
: 等到大家把这个路数都看清楚了,好戏才开场
:
: execution

s******c
发帖数: 1920
27
别以为IBM不愿意竞争,IBM是根本没能力竞争。这些老人公司根本没能力跟上spark的
开发节奏。一句话 就是没竞争

【在 h********3 的大作中提到】
: 同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决
: 定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例
: 如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术
: 咨询公司,最重要的是客户关系。
:
: 行稳

s******c
发帖数: 1920
28
mesos没人理?mesosphere低调而已
他们营收增长的很快
有花街大客户的

【在 c******n 的大作中提到】
: spark 绝对不止是 “一个research 项目,有新方法“,
: 实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力
: 做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为
: 一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY???
: 就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR
: replacement.
: 你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被
: VC/market 吹起来

c******n
发帖数: 4965
29
内部消息: IBM 花大投入在跟这个风。
我组里一烙印前段时间刚跳过去, 他们给committer 的privilege .给钱很多

【在 s******c 的大作中提到】
: 别以为IBM不愿意竞争,IBM是根本没能力竞争。这些老人公司根本没能力跟上spark的
: 开发节奏。一句话 就是没竞争

y*d
发帖数: 2226
30
Hadoop MR缺5个东西
1。好的programming API。这个Hive和cascading多少弥补了一些
2。Workflow,这个google早就有了,但是没开源,也没发paper。Cascading和Apache
Crunch试了下水。Spark在这两个的基础上稍加改进,终于做得像一点样子了
3。in-memory cache / long live service,这个其实是最早的parallel computing就
有的东西。map-reduce为了扩展性、灵活性、容错性砍掉了,反正map-reduce的主要应
用ETL也不要这些。现在presto,spark又试着把这个加回去
4。interactive execution。也是早就有的东西,Google Dremel,Presto, impala,
等等等等
5。Peer to peer通信。这个对于某些应用很重要。目前只有MPI支持。但是MPI比较难
用了
6。实时数据处理。这个方面,Storm其实做得很好,但是相对比较难programming比较
难debug。Spark的折中方案对于Serious的用户不够用,对于业余用户好开发
Spark不是发明了什么革命性的东西,主要是把一些个好的点子加以改进集成到了一起
。特别是1到3,spark做得不错。不同需求的人,现在都能在Spark里找到感兴趣的东西
。这是他们能火起来的原因
但是,是不是Spark就是这些问题的终极解决方案?
我可以肯定的说,不是。Spark只是so far最靠谱的research尝试
至于你说spark的idea不新,我觉得你的标准有点太高了。牛顿还站在巨人肩上呢
iphone也是从2000年的PDA学来的
没有啥技术革新是平地起高楼的

【在 c******n 的大作中提到】
: 你根本就不理解databricks 的定位,
: 它正好是你说的“很好的软件,很好的idea (未必就真能赚钱 那种)" 的反面。
: 它的idea一点都不新, 最近几年hadoop echo system 所有人都不约而同地向in-
: memory processing 发展(Tez, stinger, presto ..), 它之所以火,正式因为靠上了
: 这个时髦趋势。
: 你之前讲的一些例子,正好是你说的 "很好的软件,很
: 资的时候)。 mach 它再怎么牛, 不做成一个
: consumer facing product (OSX), 只能是小众产品。

相关主题
在校生应该怎么学些 hadoop/spark 的内容[hortonworks面经] senior hadoop engineer
Cloudera这个公司怎么样大数据公司Databricks内推
做Spark前途咋样啊?Hadoop Spark 学习小结[2014版]
进入JobHunting版参与讨论
s******c
发帖数: 1920
31
intel后悔没跟近spark肠子都悔青了
唉 真没想到都这年代了还有人迷信这几个大公司
去github看看他们这个公司提交的pr就知道他们的水平了

【在 y*d 的大作中提到】
: 是,这些个开源big data公司最大的价值其实是在consulting,而不是那个万把行的小
: 软件
: 这个行当不赚钱则已,一旦赚钱,IBM、Oracle、Intel跳进来,分分钟造一个先进一代
: 的产品出来

s******c
发帖数: 1920
32
我知道
但他们真心招不到牛人 就这么简单
牛人去了也呆不住

【在 c******n 的大作中提到】
: 内部消息: IBM 花大投入在跟这个风。
: 我组里一烙印前段时间刚跳过去, 他们给committer 的privilege .给钱很多

y*d
发帖数: 2226
33
那个组是做AI的,mesos才是副业 :)
anyway,我同意你你说的,Hadoop MR已经严重老化了,缺陷明显,这个时候spark跳了
出来,吸引了大家的目光。但是再过3年5年,Spark又会被新的东西代替,成不了气候

【在 c******n 的大作中提到】
: spark 绝对不止是 “一个research 项目,有新方法“,
: 实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力
: 做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为
: 一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY???
: 就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR
: replacement.
: 你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被
: VC/market 吹起来

y*d
发帖数: 2226
34
Intel在Hive上的贡献还是很大的
另外他们是cloudera的后台老板
在big data consulting这块,cloudera是行业老大
impala做得也不错
另外,如我前面所说的,屌丝科技公司爱用新技术,但是不会付钱;肯付钱的银行、电
信老土公司还就信IBM、Oracle这些。里面搞采购的和IBM、Oracle勾结了几十年了。你
的玩艺好,人家也不买你的

【在 s******c 的大作中提到】
: intel后悔没跟近spark肠子都悔青了
: 唉 真没想到都这年代了还有人迷信这几个大公司
: 去github看看他们这个公司提交的pr就知道他们的水平了

l*******m
发帖数: 1096
35
D家这回有不同之处。他们的online ds services要开张了

【在 g*****g 的大作中提到】
: 这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄
: 个企业版管理UI,附加服务啥的要 license.
: 只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。

y*d
发帖数: 2226
36
比A家的AWS何如?
比G家的Cloud何如?
说到运营cloud service,他们比阿里巴巴都不一定比得过
亚麻可以搞EMR,就不能搞ESpark?

【在 l*******m 的大作中提到】
: D家这回有不同之处。他们的online ds services要开张了
s******c
发帖数: 1920
37
随便看看这个版都能看到花街公司招聘都要求cassandra了
银行 金融 电信 石油 这些传统行业 里面也分成不同部门,为了搞大数据上open
source的多了,而且也是愿意付费的。

【在 y*d 的大作中提到】
: Intel在Hive上的贡献还是很大的
: 另外他们是cloudera的后台老板
: 在big data consulting这块,cloudera是行业老大
: impala做得也不错
: 另外,如我前面所说的,屌丝科技公司爱用新技术,但是不会付钱;肯付钱的银行、电
: 信老土公司还就信IBM、Oracle这些。里面搞采购的和IBM、Oracle勾结了几十年了。你
: 的玩艺好,人家也不买你的

l*******m
发帖数: 1096
38
他们用AWS,gui做得不错,面向data analytics, ml. 用户不同,不是面向dev的

【在 y*d 的大作中提到】
: 比A家的AWS何如?
: 比G家的Cloud何如?
: 说到运营cloud service,他们比阿里巴巴都不一定比得过
: 亚麻可以搞EMR,就不能搞ESpark?

f*****d
发帖数: 2285
39
终于有个明白人了
[在 ysd (ysd) 的大作中提到:]
:Hadoop MR缺5个东西
:1。好的programming API。这个Hive和cascading多少弥补了一些
:...........
w******g
发帖数: 189
40
ysd 说的workflow指的是什么?google和databricks都有什么解决方案?
相关主题
Hadoop Spark 学习小结[2014版]hadoop面试和学习总结
还有公司会在新项目选择mapReduce吗?[cloudera面试] senior engineer
硅谷地区中型 Hot Startup Listhortonworks这个公司如何 (转载)
进入JobHunting版参与讨论
f*****d
发帖数: 2285
41
https://cloud.google.com/dataflow/
[在 wookoong (悟空) 的大作中提到:]
:ysd 说的workflow指的是什么?google和databricks都有什么解决方案?

:...........
m*********2
发帖数: 178
42
赞分析

Apache

【在 y*d 的大作中提到】
: Hadoop MR缺5个东西
: 1。好的programming API。这个Hive和cascading多少弥补了一些
: 2。Workflow,这个google早就有了,但是没开源,也没发paper。Cascading和Apache
: Crunch试了下水。Spark在这两个的基础上稍加改进,终于做得像一点样子了
: 3。in-memory cache / long live service,这个其实是最早的parallel computing就
: 有的东西。map-reduce为了扩展性、灵活性、容错性砍掉了,反正map-reduce的主要应
: 用ETL也不要这些。现在presto,spark又试着把这个加回去
: 4。interactive execution。也是早就有的东西,Google Dremel,Presto, impala,
: 等等等等
: 5。Peer to peer通信。这个对于某些应用很重要。目前只有MPI支持。但是MPI比较难

f****D
发帖数: 4745
43
这公司超牛逼的啊!
楼主你要是进去了,能内推一下我吗?
跪求啊!
s******c
发帖数: 1920
44
google做flume对外叫dataflow有年头了 没太宣传而已
就发了片非常misleading的paper。
结果被spark抢了风头

【在 f*****d 的大作中提到】
: https://cloud.google.com/dataflow/
: [在 wookoong (悟空) 的大作中提到:]
: :ysd 说的workflow指的是什么?google和databricks都有什么解决方案?
: :
: :...........

1 (共1页)
进入JobHunting版参与讨论
相关主题
Databricks 这个公司什么情况?还有公司会在新项目选择mapReduce吗?
2015年硅谷最火的高科技创业公司都有哪些?硅谷地区中型 Hot Startup List
在校生应该怎么学些 hadoop/spark 的内容hadoop面试和学习总结
Cloudera这个公司怎么样[cloudera面试] senior engineer
做Spark前途咋样啊?hortonworks这个公司如何 (转载)
[hortonworks面经] senior hadoop engineer求问hadoop学习资料
大数据公司Databricks内推WalmartLabs vs Twitter vs Hortonworks
Hadoop Spark 学习小结[2014版]面试犯2了
相关话题的讨论汇总
话题: spark话题: hadoop话题: data话题: mr话题: 公司