第5页 - 关于databricks的讨论汇总 - 话题女王

全部话题 - 话题: databricks

h**********n
发帖数: 897

最早是twtr大力推，然后是lnkd大力推，然后databricks搞出个spark……现在前俩都
不太推了。
就看spark了。各大公司不用spark用Scala的情景很少很少（或许是我孤陋寡闻）。

f******2
发帖数: 2455

来自主题: Programming版 - Apache Beam bs Apache spark

看了一下incubation的goal description，感觉google还是就想开源个壳子就把客户赢
过来，估计不会成功。
首先，在这里把spark批评一把：https://cloud.google.com/dataflow/blog/dataflow
-beam-and-spark-comparison
然后，在这里想把spark一统到自己的programming model下来：https://wiki.apache.
org/incubator/BeamProposal
感觉完全不顾databrick的感受。
而且dataflow的server side根本没有开源计划。这就好像azure说，我开源了azure客
户段
，而且是apache项目，你们不要用aws啦。
这么搞在云计算上没法翻盘。

p*****2
发帖数: 21240

来自主题: Programming版 - databrick的scala style guide

就是这个意思

w**z
发帖数: 8232

来自主题: Programming版 - 开发一个轮子是开源好还闭源好？

卖service，和一些add on 的feature
参考 datastax， databricks， confluent

N*****m
发帖数: 42603

来自主题: Programming版 - 开发一个轮子是开源好还闭源好？

databricks的人不是还抱怨dataartisans的人抄袭嘛

S*******e
发帖数: 525

来自主题: Programming版 - 不好意思--去年或更早一些听一校友讲MXNET

我说你这东西要是没有Java接口，希望不是太大，因为企业大多得和Java 有接口。他
当时是西雅图华盛顿大学的博士生。现在MXNET好像仅次于tf。DP现在还真的几乎全是C
++做底层。中华儿女在这方面的进展让人兴奋。
Databrick正在做一个tf和Spark的接口，已经有beta。

d****n
发帖数: 12461

来自主题: Programming版 - scala vs clojure ?

如果去纯scala的公司，例如confluent或者databricks，其实是很开心的。
但是如果你周围都是学java出身的程序员，觉得scala可以和java混着用，用scala其实
是劣势。搞不好比纯java还糟糕。写得烂的scala程序不仅效率低下而且难读无比，找
bug也比java花的时间多。
所以除非你做到architect或者manager能做到帮程序员做工具选择的地步，否则要么不
要碰scala，要么做开源项目的ic算了。

发帖数: 1

来自主题: Programming版 - 世界上最牛逼的 Java 程序员

他们商业编程起步早多了，java的产生建立在前几十年在对c的商业编程经验的长期积
累和思考的基础之上。而且90年代和2000年初还没有现在这么丰富的编程人员，有些空
子也容易钻。这些例子里的人，能成功的关键更在于软实力，宣讲，影响，social，辩
才了得，华人要想出这样的人物，必须在这上面用功。其实随着教育的普及，过去几年
在大数据和数据分析领域华人（包括部分烙印）的代码贡献已经非常瞩目了。
databricks的华人头儿名字忘了还不错，就是曝光比大头儿少多了。

x*********n
发帖数: 175

来自主题: Quant版 - 做并行计算 using R in databricks spark

Pick up scala吧

发帖数: 1

来自主题: Quant版 - 做并行计算 using R in databricks spark

Thanks, so far only considering spark

x*********n
发帖数: 175

来自主题: Quant版 - 做并行计算 using R in databricks spark

Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.

: Thanks, so far only considering spark

发帖数: 1

来自主题: Quant版 - 做并行计算 using R in databricks spark

thanks for the insights, really appreciate it

x*********n
发帖数: 175

来自主题: Quant版 - 做并行计算 using R in databricks spark

Pick up scala吧

发帖数: 1

来自主题: Quant版 - 做并行计算 using R in databricks spark

Thanks, so far only considering spark

x*********n
发帖数: 175

来自主题: Quant版 - 做并行计算 using R in databricks spark

Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.

: Thanks, so far only considering spark

发帖数: 1

来自主题: Quant版 - 做并行计算 using R in databricks spark

thanks for the insights, really appreciate it

m*****n
发帖数: 3575

来自主题: Quant版 - 做并行计算 using R in databricks spark

R总是在你用的时候，出这样或那样的错误
足够拖工期

发帖数: 1

来自主题: Quant版 - 做并行计算 using R in databricks spark

we switched from spark to AMAZON AWS now.

z****e
发帖数: 54598

来自主题: DataSciences版 - Re: MapR Technologies continue hiring a lot of positions (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: xmj http://www.zenofon.com/QHJRE, 信区: JobHunting
标题: Re: MapR Technologies continue hiring a lot of positions
发信站: BBS 未名空间站 (Sat Jul 19 13:19:40 2014, 美东)
俺做bigdata5年多，这三家公司都研究过，简单说说供参考。
Cloudera成立早，有很多yahoo的老人在，骗了很多钱，目前以做service为主，比较领
先的是它的management tool，对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata，前段时间intel投资了。目前来看比较牛。他们自己搞了
impala，我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的，技术上来说，看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错，Mapreduce一般般了就。里面有很多以前做pig的人，目
前... 阅读全帖

l****i
发帖数: 398

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

Databricks Cloud犀利的一塌糊涂，具体看视频：
https://www.youtube.com/watch?v=dJQ5lV5Tldw#t=2481

o***8
发帖数: 46

来自主题: DataSciences版 - 有没有cdh的spark的培训资料？

http://training.databricks.com/workshop/itas_workshop.pdf

a**e
发帖数: 35

来自主题: DataSciences版 - 有没有cdh的spark的培训资料？

http://databricks.com/spark-training-resources

d*2
发帖数: 2053

来自主题: DataSciences版 - 现在是不是Spark最火？

databricks势头很猛？

d****n
发帖数: 233

来自主题: DataSciences版 - Kafka, Spark Streaming, ElasticSearch for Business Intelli

我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站：
http://pbies.cloudapp.net/kibana3
这个网站利用ElasticSearch，Logstash，Kibana三个开源项目，提供两个Dashboards
，其中一个能从Twitter用户的Tweets搜索关键字，显示hot topic以及用户地理分布信
息。
http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard
另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log
我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo：
https://www.yo... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015-01-29 LDA入门与Java实现

(今天实验一下专为mitbbs排版的机器学习日报，欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词：算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用
Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好
，开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-13
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词：深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》，很多有意思的文章，例如深度学习在自然语言处理中的应用，基于社会媒体的
预测技术，从问答系统看知识智能，拥抱社会智能，等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词：资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

B*****g
发帖数: 34098

来自主题: DataSciences版 - 学习spark是否需要懂scala？

不看源代码，没必要学scala
https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-
large-scale-data-science.html

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-05
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-05/short.html
1) 【成为一名数据分析师的新手指导】 by @伯乐在线官方微博
关键词：分析
《成为一名数据分析师的新手指导》本文是著名学习网站Udacity的数据分析基础性文
章。由于Udacity的就业导向，不同于单纯介绍学习路径，文章还从职业人士的角度讲
述数据分析的方方面面。文章同时附有视频，不失为一篇好的介绍文 [1] @东邪他爹译
[1] http://blog.jobbole.com/84606/
2) 【关于Docker你应该知道的10件事】 by @LUPA开源社区
关键词：计算框架, 数据库, 虚拟化, Docker, Hadoop, MongoDB, 容器
【关于Docker你应该知道的10件事】如果你在企业IT工作，那你会听说过Docker。即... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-14
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-14/short.html
1) 【Apache Spark 1.3发布】 by @网路冷眼
关键词：分析, 计算框架, Kafka, Spark, 流计算
【Apache Spark 1.3发布】 [1] Spark 1.3引入万众期待的DataFrame API,让大数据挖
掘简单而快速。重大改进有：新的DataFrame API;Spark SQL从Alpha毕业;内置支持
Spark包;Streaming支持底层Kafka;MLlib引入新的算法。 @hashjoin @BigData大数据
@好东西传送门 @伯乐头条 @52nlp @DataMooc
[1] https://databricks.com/blog/2015/03/13/announcing-spark-1-... 阅读全帖

H****E
发帖数: 254

来自主题: DataSciences版 - spark 问题

https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖

d*****i
发帖数: 222

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

跟LZ有类似的想法，建议先上一下edx的spark的课，现在已经开始了，用的是他们建好
的vm用的是databrick的cluster，我的感觉现在这种情况用aws是比较可行的，自己建
cluster比较耗时，如果没有这方面背景的话。

c*******n
发帖数: 679

来自主题: DataSciences版 - What's the best way to convert text/csv file into PARQUET

check out spark-csv @
https://github.com/databricks/spark-csv

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天