第3页 - 关于rdd的讨论汇总 - 话题女王

p*****2
发帖数: 21240

多谢大牛。有没有design doc，主要是讲述如何把RDD分配到actors进行计算的，包括
数据的传送。

w********m
发帖数: 1137

不是hadoop和spark的committer，没兴趣关心jvm。用轮子的真不觉得轮子怎么做很重
要。
测试过scala和python在spark上的表现，没觉得你说的后者比前者慢几十倍。主要瓶颈
是RDD到hdfs的IO，这跟语言有什么关系。
另外，spark上怎么用groovy。

w********m
发帖数: 1137

来自主题: Programming版 - python真是一个很恶心的语言。

z****e
发帖数: 54598

来自主题: Programming版 - python真是一个很恶心的语言。

你的瓶颈居然不在computing上，而在io上
那你根本无法测试语言之间的差异
还谈什么比较？
话说做ml之类的，感觉数据操作是大头
而且spark不就是把数据读入内存么？
你怎么还会有频繁的rdd和hadoop上的io操作，那这样的话，跟hadoop有啥区别？
你确定你用对了spark？
这个优化了之后，你的重点应该是ml那些算法上
那个都是吃资源的大户，做个word count就可以很明显感觉出来了
不过这个不仅跟语言有关，跟复杂度也有关系
我们当时做word count，同样是java，有些人用了4秒，有些人算了一整天
python同样算法更慢，尤其是涉及dictionary的时候
我大概用同样算法跑python要用半个小时，java的话，2分钟差不多
只有spark上怎么用groovy，这个问你，跟python用c库一样用
你要是不知道我没办法

f****3
发帖数: 77

来自主题: Programming版 - 感觉写Scala就是一种享受

操作rdd这种数据结构，必然要var阿

w******g
发帖数: 189

来自主题: Programming版 - Spark上怎么join avro format的数据？

看见这里有scala 和spark的大牛，问问一个困扰多时的问题。Spark上怎么join avro
format的数据？
如果是plain text，用TAB分割开的数据，做join操作很容易就是把A和B表弄成(key,
value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据，还
是A和B，格式都是(STRING, GenericRecord)。读是可以都的，因为可以执行first和
count的action，但是join貌似要shuffle，shuffle的话要serialize 临时数据。已经
用了kyro的serializer register A和B类了，还是不行。大牛谁有经验或者可以run的
例子吗？

p***o
发帖数: 1252

来自主题: Programming版 - streaming怎么保证data integrity?

storm里有个叫trident的东西，要不你直接上spark。至于原理你可以看看RDD的paper，
说白了就是只要你保证源是干净的，中间状态都可以重算出来。

z****e
发帖数: 54598

来自主题: Programming版 - scala开发效率确实奇高

nosql问题还多多，还处于发展阶段，newsql说的是分布式db
我觉得nosql现在还发展不到transaction和脚本就能用的地步
还有一段距离要走，比如rdd这种类似以前db的cache
spark才刚开始做

B********r
发帖数: 397

来自主题: Programming版 - Cassandra 真是狗屎

是真的，自己在DO开个32G 12cpu 的instance 试试就知道了
如果persist rdd，10-15 秒 1 million row join 1 million
filter, map, reduce 更快
如果要load 基本看你硬盘速度

p*****2
发帖数: 21240

来自主题: Programming版 - 把不同 AKKA actor 里的数据 merge 到 spark RDD 的最佳方式？

写到C＊或者HDFS里

j*****n
发帖数: 1545

来自主题: Programming版 - spark看了一边没什么难点啊。7天掌握

spark 本身确实没啥，RDD 变来变去记住那些 operator 就好了。难的是如果一个新
的ML算法怎么能用 spark 实现.

c*****a
发帖数: 1638

来自主题: Programming版 - Spark 和 Dynamodb 之间如何连接

写很简单。我没看懂你有啥困难的？在function里面直接写就行了，只是要注意控制
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话，2种做法吧，数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面，然后返回RDD。
dynamo用起来不便宜，如果你们确定数据量很大，其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra，那么可能TCO Cassandra更贵就是了，因为dynamo你们
可以不用Admin。

connector

M*****R
发帖数: 650

来自主题: Programming版 - Spark已经out了，能跳船的赶快

大牛怎么看Spark Streaming？这个和Storm，Samza哪个更有前途一些？
RDD基于coarse-grained memory access pattern，这个好像和streaming应用不合拍啊。

com/
忽略
loop

g*******o
发帖数: 156

来自主题: Programming版 - 哭求好的spark教程

看一下rdd的paper，然后跑几个简单的应用。
会scala上手比较快，只会java问题也不大。

p****a
发帖数: 38

来自主题: Programming版 - 哭求好的spark教程

rdd的paper, which paper?

c******o
发帖数: 1277

来自主题: Programming版 - 哭求好的spark教程

mostly is not about scala, it is more about the whole rdd implementation.
major work are all about how to design your work flow, and optimize it.

x***4
发帖数: 1815

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

谁讲讲flink和spark有什么本质区别？我很表面的理解，spark也支持streaming（rdd
based mini batch），这个和flink的streaming有什么不同？

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

Spark采用batch engine来处理数据; Flink采用stream engine处理数据。
Spark的streaming process = micro batch; Flink的batch process = streaming
process的特殊情况。
在现实世界里，大数据平台处理数据的过程就好比油罐车拉原油的过程。你可以调用油
罐车队批量拉油（spark micro batch)，也修建石油管道直接输送原油（Flink
streaming）。
在计算机领域里，两个大数据平台的本质其是源于对Unix Pipes在分布式环境下的演化
。下面用Linux自带的工具举个例子，来比较一下Spark和Flink的不同点。假设我们想
统计FileA里面的关键字China的总数：
Spark的处理模式可以等效为: cat FileA > /dev/shm/RDD1; grep China /dev/shm/
RDD1 > /dev/shm/RDD2; wc -l /dev/shm/RDD2 > /dev/shm/FileB
Flink的处理模式可以等效为: cat File... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

rdd
stream就是那种连续的，不间断过来的数据
batch就是那种已知边界的数据
spark的streaming只是mincro batch
本质上还是bacth，不是streaming
streaming要求过来一个就处理一个，而且一次就处理一个
这种就是真streaming，如果达不到这种要求，就是伪streaming
microbatch顾名思义，不是这种搞法
streaming的好处显而易见，时效性强，可以很快作出反应
但是坏处也很明显，需要资源比较多
而且从长时间上看，比如处理chunk，总体算下来
还是batch用时比较节省
其实streaming我个人认为并不适合用来做persistance的处理
尤其是file system, db上的数据，我觉得用batch就足够了
streaming用在对付需要短时间处理并反馈的数据
主要是用来处理web上过来的数据，比如video这些
还有tweets，还比如用一个udp socket直接监听一个port就好了
这些用streaming api就非常合理，可以增强客户体验
他们还有第三种api，就是table api，这个... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

这么做是不是因为依赖了akka的缘故？
immutable真是一个十分无聊的设计
对这个feature实在是无爱
flink只要能改掉这个设计，俺们就换flink
要不然一下storm一下spark的，有些蛋疼

p*****2
发帖数: 21240

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

这个应该是一点关系也没有

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

那把spark绑死在batch processing上是什么考虑？

w***g
发帖数: 5958

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

不是batch的做不出来。要能做出来干嘛要batch。BLAS的性能要发挥出来矩阵得足够大
才行。

n*****3
发帖数: 1584

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

我猜是因为要尽量reuse 现有的 code base，
大多 user case spa RK steaming 够用的。
瓶颈应该不在这。
IM MU table 在 concurrency 方面优势还是很大的。clojure same approach

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

这说的是dataset吧
streaming不就是为了能够real time process而消耗一部分性能么？
硬件开销和响应时间本来就是一个trade off
micro batch最大问题是不能即时反应
目前比较理想的方案就是kafka+storm
spark因为固定在batch上，所以不太行的样子
这一块好新啊，感觉在摸着石头过河，有谁是做streaming的？
古德霸他们弄视频的是不是用这个比较多？

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

看了下flink
streaming部分的数据结构就是DataStream
不是dataset，这个貌似不错的样子
然后batch的部分数据结构是DataSet
这两个分开比较好，目前streaming部分flink只支持java和scala
dataset两个都有python api
底层都用了akka
然后后面就是map, flatmap, reduce, filter这些

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

这个slides说得也比较make sense
http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streami

d******e
发帖数: 2265

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

不是有pyhton for j嘛
一点都不蛋疼

g*****g
发帖数: 34805

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

Lambda architecture

f********x
发帖数: 99

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

解铃还需系铃人:
http://cloud.google.com/dataflow/

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

不开源，会被lockin在gce上
算了吧，这种lockin一般都不怎么用，除非对这个平台特别有信心

j********x
发帖数: 2330

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

还好吧
反正依赖google不算大问题
这个内部外部都在用
除非google死了
这个才会完蛋
能活过google的早已经是成功了反正

f********x
发帖数: 99

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

SDK开源，Execution engine不会被lockin。Google其实早有预谋去统一这块市场。
Dataflow over Spark:
http://googlecloudplatform.blogspot.com/2015/01/easily-run-data
Dataflow over Flink:
http://googlecloudplatform.blogspot.com/2015/03/announcing-Goog
Genome analysis pipeline over Dataflow:
http://github.com/googlegenomics/dataflow-java

p*****2
发帖数: 21240

来自主题: Programming版 - 关于spark的cache问题一直没想清楚

rdd什么意思？

e***i
发帖数: 231

来自主题: Programming版 - 关于spark的cache问题一直没想清楚

呵呵
A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.

d******e
发帖数: 2265

来自主题: Programming版 - 赵老师讲讲flink

Flink flips this on its head. Whereas Spark is a batch processing framework
that can approximate stream processing, Flink is primarily a stream
processing framework that can look like a batch processor. Immediately you
get the benefit of being able to use the same algorithms in both streaming
and batch modes (exactly as you do in Spark), but you no longer have to turn
to a technology like Apache Storm if you require low-latency responsiveness
. You get all you need in one framework, without the ... 阅读全帖

c******n
发帖数: 4965

来自主题: Programming版 - MapReduce 的思想是怎么发明的？

你后面说 pig 串一系列 job 很对，现在 Tez 也是。
我觉得这些基本是一个思想。没有本质区别。
spark 做得火，很大一个原因是它号称 in memory, 实际上这个并不重要，因为它
还说，即使 on disk 它也比 hadoop MR 快10倍。这个它说是少了 serialization
的时间，但我觉得这个挺扯的，因为它即使用 memory, 上下级之间 data splits(
rdd) 传输，也一样会要 serialization.
它们反正是王婆卖瓜，你知道数据是可以有选择性 present 的。真要搞明白，得
你自己去跑一些实际的 benchmark, 是个不小的 project
它们搞这么火，还是有一定 hype 的因素

J****R
发帖数: 373