由买买提看人间百态

topics

全部话题 - 话题: databricks
首页 上页 1 2 3 4 5 (共5页)
h**********n
发帖数: 897
1
来自主题: Programming版 - 现在Scala又火了?
最早是twtr大力推,然后是lnkd大力推,然后databricks搞出个spark……现在前俩都
不太推了。
就看spark了。各大公司不用spark用Scala的情景很少很少(或许是我孤陋寡闻)。
f******2
发帖数: 2455
2
来自主题: Programming版 - Apache Beam bs Apache spark
看了一下incubation的goal description,感觉google还是就想开源个壳子就把客户赢
过来,估计不会成功。
首先,在这里把spark批评一把:https://cloud.google.com/dataflow/blog/dataflow
-beam-and-spark-comparison
然后,在这里想把spark一统到自己的programming model下来:https://wiki.apache.
org/incubator/BeamProposal
感觉完全不顾databrick的感受。
而且dataflow的server side根本没有开源计划。这就好像azure说,我开源了azure客
户段
,而且是apache项目,你们不要用aws啦。
这么搞在云计算上没法翻盘。
p*****2
发帖数: 21240
3
来自主题: Programming版 - databrick的scala style guide
就是这个意思
w**z
发帖数: 8232
4
来自主题: Programming版 - 开发一个轮子是开源好还闭源好?
卖service, 和一些add on 的feature
参考 datastax, databricks, confluent
N*****m
发帖数: 42603
5
来自主题: Programming版 - 开发一个轮子是开源好还闭源好?
databricks的人不是还抱怨dataartisans的人抄袭嘛
S*******e
发帖数: 525
6
我说你这东西要是没有Java接口,希望不是太大,因为企业大多得和Java 有接口。他
当时是西雅图华盛顿大学的博士生。现在MXNET好像仅次于tf。DP现在还真的几乎全是C
++做底层。中华儿女在这方面的进展让人兴奋。
Databrick正在做一个tf和Spark的接口, 已经有beta。
d****n
发帖数: 12461
7
来自主题: Programming版 - scala vs clojure ?
如果去纯scala的公司,例如confluent或者databricks,其实是很开心的。
但是如果你周围都是学java出身的程序员,觉得scala可以和java混着用,用scala其实
是劣势。搞不好比纯java还糟糕。写得烂的scala程序不仅效率低下而且难读无比,找
bug也比java花的时间多。
所以除非你做到architect或者manager能做到帮程序员做工具选择的地步,否则要么不
要碰scala,要么做开源项目的ic算了。

发帖数: 1
8
来自主题: Programming版 - 世界上最牛逼的 Java 程序员
他们商业编程起步早多了,java的产生建立在前几十年在对c的商业编程经验的长期积
累和思考的基础之上。而且90年代和2000年初还没有现在这么丰富的编程人员,有些空
子也容易钻。这些例子里的人,能成功的关键更在于软实力,宣讲,影响,social,辩
才了得,华人要想出这样的人物,必须在这上面用功。其实随着教育的普及,过去几年
在大数据和数据分析领域华人(包括部分烙印)的代码贡献已经非常瞩目了。
databricks的华人头儿名字忘了还不错,就是曝光比大头儿少多了。
x*********n
发帖数: 175
9
Pick up scala吧

发帖数: 1
10
Thanks, so far only considering spark
x*********n
发帖数: 175
11
Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.


: Thanks, so far only considering spark


发帖数: 1
12
thanks for the insights, really appreciate it
x*********n
发帖数: 175
13
Pick up scala吧

发帖数: 1
14
Thanks, so far only considering spark
x*********n
发帖数: 175
15
Spark natively supports scala... performance wise comparsion: scala > python
> r.If u wanna do serious parallel computing, R is not the best choice.


: Thanks, so far only considering spark


发帖数: 1
16
thanks for the insights, really appreciate it
m*****n
发帖数: 3575
17
R总是在你用的时候,出这样或那样的错误
足够拖工期

发帖数: 1
18
we switched from spark to AMAZON AWS now.
z****e
发帖数: 54598
19
【 以下文字转载自 JobHunting 讨论区 】
发信人: xmj http://www.zenofon.com/QHJRE, 信区: JobHunting
标 题: Re: MapR Technologies continue hiring a lot of positions
发信站: BBS 未名空间站 (Sat Jul 19 13:19:40 2014, 美东)
俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前... 阅读全帖
l****i
发帖数: 398
20
来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
Databricks Cloud犀利的一塌糊涂,具体看视频:
https://www.youtube.com/watch?v=dJQ5lV5Tldw#t=2481
o***8
发帖数: 46
a**e
发帖数: 35
d*2
发帖数: 2053
23
来自主题: DataSciences版 - 现在是不是Spark最火?
databricks势头很猛?
d****n
发帖数: 233
24
我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站:
http://pbies.cloudapp.net/kibana3
这个网站利用ElasticSearch,Logstash,Kibana三个开源项目,提供两个Dashboards
,其中一个能从Twitter用户的Tweets搜索关键字,显示hot topic以及用户地理分布信
息。
http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard
另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log
我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo:
https://www.yo... 阅读全帖
m***r
发帖数: 359
25
(今天实验一下专为mitbbs排版的机器学习日报,欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词:算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】 这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用
Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好
,开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖
m***r
发帖数: 359
26
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-13
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词:深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》,很多有意思的文章,例如 深度学习在自然语言处理中的应用,基于社会媒体的
预测技术,从问答系统看知识智能,拥抱社会智能,等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词:资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖
m***r
发帖数: 359
27
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-13
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词:深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》,很多有意思的文章,例如 深度学习在自然语言处理中的应用,基于社会媒体的
预测技术,从问答系统看知识智能,拥抱社会智能,等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词:资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖
B*****g
发帖数: 34098
28
来自主题: DataSciences版 - 学习spark是否需要懂scala?
不看源代码,没必要学scala
https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-
large-scale-data-science.html
m***r
发帖数: 359
29
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-05
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-05/short.html
1) 【成为一名数据分析师的新手指导】 by @伯乐在线官方微博
关键词:分析
《成为一名数据分析师的新手指导》本文是著名学习网站Udacity的数据分析基础性文
章。由于Udacity的就业导向,不同于单纯介绍学习路径,文章还从职业人士的角度讲
述数据分析的方方面面。文章同时附有视频,不失为一篇好的介绍文 [1] @东邪他爹 译
[1] http://blog.jobbole.com/84606/
2) 【关于Docker你应该知道的10件事】 by @LUPA开源社区
关键词:计算框架, 数据库, 虚拟化, Docker, Hadoop, MongoDB, 容器
【关于Docker你应该知道的10件事】如果你在企业IT工作,那你会听说过Docker。即... 阅读全帖
m***r
发帖数: 359
30
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-05
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-05/short.html
1) 【成为一名数据分析师的新手指导】 by @伯乐在线官方微博
关键词:分析
《成为一名数据分析师的新手指导》本文是著名学习网站Udacity的数据分析基础性文
章。由于Udacity的就业导向,不同于单纯介绍学习路径,文章还从职业人士的角度讲
述数据分析的方方面面。文章同时附有视频,不失为一篇好的介绍文 [1] @东邪他爹 译
[1] http://blog.jobbole.com/84606/
2) 【关于Docker你应该知道的10件事】 by @LUPA开源社区
关键词:计算框架, 数据库, 虚拟化, Docker, Hadoop, MongoDB, 容器
【关于Docker你应该知道的10件事】如果你在企业IT工作,那你会听说过Docker。即... 阅读全帖
m***r
发帖数: 359
31
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-14
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-14/short.html
1) 【Apache Spark 1.3发布】 by @网路冷眼
关键词:分析, 计算框架, Kafka, Spark, 流计算
【Apache Spark 1.3发布】 [1] Spark 1.3引入万众期待的DataFrame API,让大数据挖
掘简单而快速。重大改进有:新的DataFrame API;Spark SQL从Alpha毕业;内置支持
Spark包;Streaming支持底层Kafka;MLlib引入新的算法。 @hashjoin @BigData大数据
@好东西传送门 @伯乐头条 @52nlp @DataMooc
[1] https://databricks.com/blog/2015/03/13/announcing-spark-1-... 阅读全帖
H****E
发帖数: 254
32
来自主题: DataSciences版 - spark 问题
https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖
d*****i
发帖数: 222
33
跟LZ有类似的想法,建议先上一下edx的spark的课,现在已经开始了,用的是他们建好
的vm用的是databrick的cluster,我的感觉现在这种情况用aws是比较可行的,自己建
cluster比较耗时,如果没有这方面背景的话。
c*******n
发帖数: 679
首页 上页 1 2 3 4 5 (共5页)