h**********n 发帖数: 897 | 1 最早是twtr大力推,然后是lnkd大力推,然后databricks搞出个spark……现在前俩都
不太推了。
就看spark了。各大公司不用spark用Scala的情景很少很少(或许是我孤陋寡闻)。 |
|
f******2 发帖数: 2455 | 2 看了一下incubation的goal description,感觉google还是就想开源个壳子就把客户赢
过来,估计不会成功。
首先,在这里把spark批评一把:https://cloud.google.com/dataflow/blog/dataflow
-beam-and-spark-comparison
然后,在这里想把spark一统到自己的programming model下来:https://wiki.apache.
org/incubator/BeamProposal
感觉完全不顾databrick的感受。
而且dataflow的server side根本没有开源计划。这就好像azure说,我开源了azure客
户段
,而且是apache项目,你们不要用aws啦。
这么搞在云计算上没法翻盘。 |
|
|
w**z 发帖数: 8232 | 4 卖service, 和一些add on 的feature
参考 datastax, databricks, confluent |
|
N*****m 发帖数: 42603 | 5 databricks的人不是还抱怨dataartisans的人抄袭嘛 |
|
S*******e 发帖数: 525 | 6 我说你这东西要是没有Java接口,希望不是太大,因为企业大多得和Java 有接口。他
当时是西雅图华盛顿大学的博士生。现在MXNET好像仅次于tf。DP现在还真的几乎全是C
++做底层。中华儿女在这方面的进展让人兴奋。
Databrick正在做一个tf和Spark的接口, 已经有beta。 |
|
d****n 发帖数: 12461 | 7 如果去纯scala的公司,例如confluent或者databricks,其实是很开心的。
但是如果你周围都是学java出身的程序员,觉得scala可以和java混着用,用scala其实
是劣势。搞不好比纯java还糟糕。写得烂的scala程序不仅效率低下而且难读无比,找
bug也比java花的时间多。
所以除非你做到architect或者manager能做到帮程序员做工具选择的地步,否则要么不
要碰scala,要么做开源项目的ic算了。 |
|
发帖数: 1 | 8 他们商业编程起步早多了,java的产生建立在前几十年在对c的商业编程经验的长期积
累和思考的基础之上。而且90年代和2000年初还没有现在这么丰富的编程人员,有些空
子也容易钻。这些例子里的人,能成功的关键更在于软实力,宣讲,影响,social,辩
才了得,华人要想出这样的人物,必须在这上面用功。其实随着教育的普及,过去几年
在大数据和数据分析领域华人(包括部分烙印)的代码贡献已经非常瞩目了。
databricks的华人头儿名字忘了还不错,就是曝光比大头儿少多了。 |
|
|
发帖数: 1 | 10 Thanks, so far only considering spark |
|
x*********n 发帖数: 175 | 11 Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.
: Thanks, so far only considering spark
|
|
发帖数: 1 | 12 thanks for the insights, really appreciate it |
|
|
发帖数: 1 | 14 Thanks, so far only considering spark |
|
x*********n 发帖数: 175 | 15 Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.
: Thanks, so far only considering spark
|
|
发帖数: 1 | 16 thanks for the insights, really appreciate it |
|
m*****n 发帖数: 3575 | 17 R总是在你用的时候,出这样或那样的错误
足够拖工期 |
|
发帖数: 1 | 18 we switched from spark to AMAZON AWS now. |
|
z****e 发帖数: 54598 | 19 【 以下文字转载自 JobHunting 讨论区 】
发信人: xmj http://www.zenofon.com/QHJRE, 信区: JobHunting
标 题: Re: MapR Technologies continue hiring a lot of positions
发信站: BBS 未名空间站 (Sat Jul 19 13:19:40 2014, 美东)
俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前... 阅读全帖 |
|
|
|
|
|
|
|
m***r 发帖数: 359 | 26 机器学习日报 2015-03-13
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词:深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》,很多有意思的文章,例如 深度学习在自然语言处理中的应用,基于社会媒体的
预测技术,从问答系统看知识智能,拥抱社会智能,等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词:资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖 |
|
m***r 发帖数: 359 | 27 机器学习日报 2015-03-13
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词:深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》,很多有意思的文章,例如 深度学习在自然语言处理中的应用,基于社会媒体的
预测技术,从问答系统看知识智能,拥抱社会智能,等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词:资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖 |
|
|
|
|
|
H****E 发帖数: 254 | 32 https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖 |
|
d*****i 发帖数: 222 | 33 跟LZ有类似的想法,建议先上一下edx的spark的课,现在已经开始了,用的是他们建好
的vm用的是databrick的cluster,我的感觉现在这种情况用aws是比较可行的,自己建
cluster比较耗时,如果没有这方面背景的话。 |
|
|