由买买提看人间百态

topics

全部话题 - 话题: flink
首页 上页 1 2 3 (共3页)
r********n
发帖数: 7441
1
大的 dc 1000台机器只够放个角落
r********n
发帖数: 7441
2
大的 dc 1000台机器只够放个角落
z****e
发帖数: 54598
3
来自主题: Programming版 - Palantir靠的是军方关系

你说对了,我早就想做一些傻瓜化vert.x还有db还有flink这些的软件
目前只是等这些东西成熟而已,因为这一堆还没几个版本上1的
但是db这一块可以先做
z****e
发帖数: 54598
4
来自主题: Programming版 - Palantir靠的是军方关系

如果你想多快好省滴完成,就应该认真看看eclipse这种常用轮子
连这种轮子都不会用,谈什么多快好省?这不是搞嘛
什么都省,就是不省人工,which是最贵的东西
就拿你的那个项目来说,我当时认真看了需求
基本上一个vert.x可以解决除了核心算法以外的所有server side需求
你折腾了一堆又是php又是python又是node的,还整合了半天
你不嫌太麻烦么?看了都累
实际上我大概能够猜出一点他们在做什么了
看你还是一脸茫然的样子,给你点拨一下
我现在越来越有信心觉得他们压根没有依赖任何特定的数据集
就是一个common的api,什么数据源都可以接受
不管这个数据源是db,还是nosql,还是xml,还是txt这种纯粹混乱的符号集合
这也差不多是从structured -> unstructured的几个代表
越往unstructured偏,越需要spark这些东西,但是我想的还要更多一点
包括real time的streaming data,所以如果flink能搞定这些的话,就比较完美
能把所有数据统一到一个界面上去的话,不需要做多少特别复杂的转换
光join就足够让人看出很... 阅读全帖
z*******3
发帖数: 13709
5
来自主题: Programming版 - 怎样schedule spark application

spark sql的话,应该是一样的
你说的是异步吧?
异步的话,塞入lambda做completion后的回调函数
这样会导致金字塔,用rx模式,subscribe, publish,这样就可以避开金字塔
对vert.x熟悉的话,就比较清楚了
akka也行,但是akka偏复杂难用
spark和flink这些对于akka的封装稍微有些高级了
B*****g
发帖数: 34098
6
来自主题: Programming版 - IBM is all into Spark
开个flink比spark强的帖子他就来了,嘿嘿
N*****m
发帖数: 42603
7
来自主题: Programming版 - IBM is all into Spark
不会了,数钱去了
flink现在差距大了
d*******r
发帖数: 3299
8
来自主题: Programming版 - IBM is all into Spark
就是 flink 都不值一驳了?
zhaoce 说说看呢
d******e
发帖数: 2265
9
来自主题: Programming版 - 赵老师讲讲flink
我们轻量级的,不用上hadoop.
现在裸写的都是类似。
getSeed.map{
some computation}
map{
some computation by asking external service}
map{
other compuation}
map{other external services}
filter.filter.reduce_by_key.report or save.
l*******m
发帖数: 1096
10
来自主题: Programming版 - 赵老师讲讲flink
spark应该没问题
d******e
发帖数: 2265
11
来自主题: Programming版 - 赵老师讲讲flink
先顶,晚上回来仔细看。
z*******3
发帖数: 13709
12
来自主题: Programming版 - 赵老师讲讲flink
一般streaming的datasource都是kafka之类的
或者是web service,jms这些
hdfs等persistence不太强调streaming
z****e
发帖数: 54598
13
来自主题: Programming版 - scala看来也就这样了

不是
py不重要
py有自己的一套eco
用来学习可以,但是遇到企业主流jvm,就挂了
现在是搞统计搞ai的需要企业,因为企业有钱
而非反过来,因为企业的数据,eco基本上都围绕着jvm建设
所以迫使这些进入企业的人类需要一个能够为企业服务的工具
spark就满足了这批人的需求,因为当时只有akka
所以很多东西现在还没有办法做,等vert.x之上有人开始建设spark/flink这种东西之后
各种脚本就都可以支持了,这样py到时候重要性自然就会下降
到时候什么脚本都可以用了,实际上big data很多nosql数据库也都支持js,ruby等脚本
比如couchdb
z****e
发帖数: 54598
14
来自主题: Programming版 - 越来越觉得spark是niche
flink,还有你自己写也可以

:lz 都 contribute过ml的code 了,
:why 还感觉 “真正要搞的话,对数学要求bar很高”?
z****e
发帖数: 54598
15
来自主题: Programming版 - 码农在家上班的机会多吗 (转载)

rxjava主要是用来弥补java在fp上的不足的
主要应用是streaming部分
你做flink应该清楚,set和stream是两种不同的类型
前者一开始就知道大小,后者对于结束边界搞不清楚
所以涉及streaming的部分,用rxjava比较多
而且streaming部分主要是fp的应用,map(func,a)
如果是fp语言的话,比如clojure,就不怎么需要这个东西
但是java是纯粹的oop语言,所以需要弥补fp上的不足
这个不足就由rxjava来填,当然你换clojure或者scala也可以
这两者的fp部分比java要强不少
vert.x则是一个什么都做的东东
我感觉vert.x是java的延伸,java的特征就是尽一切可能封装各种接口之类的
jvm封装了os的差异,jdbc封装了db connection,hibernate封装了sql的差异
vert.x则封装了file system的差异,还有web protocol的差异,以及各种jvm上脚本的
差异
尽可能提供一个统一的接口,对于所有不同的软件产品
然后还做了其他很多东西,其中reactive和stream... 阅读全帖
z****e
发帖数: 54598
16
来自主题: Programming版 - vertx3.1出来可以秒杀golang 了?

这当然不可能
php和go这些都还有其用武之地
包括node这些
但是vert.x对于node+go+akka这种复杂的架构来说
威胁是十分巨大的,因为维护三套不同语言的系统
需要的人力物力成本,远比你维护一套vert.x来得要高得多
复杂度也要高得多
下面就看flink, spark这些哪一个更聪明点,会先手用上vert.x了
或者出现一个更为聪明的项目,直接用vert.x酱紫
又或者是vert.x逐步演变成这么一个项目
z****e
发帖数: 54598
17
来自主题: Programming版 - scala/spark现在情况怎样?

vert.x的东西太底层
如果要做到spark这个高度
需要大量的代码堆砌
不划算,如果不是spark的core developer
这个solution显然不对
vert.x倒是可以直接替代akka which被spark和flink都使用的东西
f********x
发帖数: 99
18
来自主题: Programming版 - 关于Kafka,一个log数据处理的问题
说了一大堆,不知道你到底想问什么问题? collectd => Kafka => Flink or Spark
Streaming => Kafka => C* or other NoSQL可能是你需要的架构。

了)
Tag
f******2
发帖数: 2455
19
来自主题: Programming版 - 问卷,2016你最想学习的一门技术
1. 一个client side mvc framework e.g. angular or reactjs
2. 一个大数据处理引擎,e.g, spark or Flink
3. 一个云平台的深入使用, aws or gce
4. 上一刷题培训班
5. 其他(请具体specify)
5选2的话,大家都来说说自己希望学习的知识吧。
m***h
发帖数: 77
20
来自主题: Programming版 - 狗的dataflow是什么
刚从hacker news看到, streaming processing, 跟spark和flink竞争
https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison
N*****m
发帖数: 42603
21
来自主题: Programming版 - Apache Beam bs Apache spark
就是DataFlow的DSL开源了,好几个星期前的事了
现在搞了个beam的名字
引擎没有开源,然后可以在它自家的DF Service上跑
也可以把spark, flink当引擎

dataflow
apache.
u********s
发帖数: 1047
22
来自主题: Programming版 - 有人看好flink和storm吗
这两个属于和spark类似的产品吧,因为spark太火了现在感觉这两个没什么人提起
N*****m
发帖数: 42603
23
来自主题: Programming版 - 有人看好flink和storm吗
storm有yahoo在支持吧,当然本身也是不行了
u********s
发帖数: 1047
24
来自主题: Programming版 - 有人看好flink和storm吗
看storm的网站上应该twitter还有阿里巴巴一些公司也在用storm
w**z
发帖数: 8232
25
来自主题: Programming版 - 有人看好flink和storm吗
storm 是 Twitter 买的一个公司搞得,现在应该已经放弃了吧。
N*****m
发帖数: 42603
26
来自主题: Programming版 - 有人看好flink和storm吗
放弃了,自己搞了一个heron
N*****m
发帖数: 42603
27
来自主题: Programming版 - 各位大牛,Apache Apex 怎么样?
用香草hadoop的还是不少的
hive, pig, presto, impala, flink这些都是寄生在hadoop上的
N*****m
发帖数: 42603
28
来自主题: Programming版 - 这种情况该用那种big data tool?
spark, flink, presto都行。不过,你的原始数据组织得优化一下。
aws redshift刚搞了个spectrum,8秒可以query 6.1 billion rows,数据在s3上面。

30
d****n
发帖数: 12461
29
来自主题: Programming版 - 大牛们有人玩apache beam吗
同问。最近看到这个想搞一搞。不过这也是个大一统的框架,底层还是要靠flink或者
spark来实现。
d****n
发帖数: 12461
30
来自主题: Programming版 - 大牛们有人玩apache beam吗
个人觉得做框架已经做不下去了。因为没有业务逻辑的框架就是个花架子,无论是新马
车beam, heron, apex还是旧马车flink,storm或者spark。
p*****2
发帖数: 21240
31
来自主题: Programming版 - Storm 现在还用的多吗?

被淘汰了。貌似flink也有点火。

发帖数: 1
32
来自主题: Programming版 - 關於JVM多線程的內存分配
我不知道我理解的對不對,請高手幫忙澄清:
JVM裡內存有兩種分配方式:
1. Java object分配內存,也就是java new,首先使用手動cpu優化版本的new:
hotspot/src/cpu/x86/vm/templateTable_x86_64.cpp TemplateTable::_new()在TLAB
上分配;如果失敗,就去自動編譯的hotspot/src/share/vm/interpreter/
interpreterRuntime.cpp InterpreterRuntime::_new,這裡可能有鎖,性能低。而且
可以被GC回收,應該是managed內存。
2. JVM內部Cpp datastructure native memory allocation,一般C2 compiler做JIT時
需要分配內存,然後JVM會調用arena,arena裡面有chunkpool,裡面的chunk不夠用需
要重新分配時,會調用malloc,並用ThreadCritical的pthread_mutex_lock做保護。例
如:hotspot/src/share/vm/me... 阅读全帖
r**********9
发帖数: 19633
33
来自主题: _Hope版 - [无标题]

还真不知道lego,以前面过一个美国玩具公司的data engineer,要求还挺高要会flink
,做real time的。。。。。。
l*******r
发帖数: 39279
34
来自主题: _Hope版 - [无标题]
好吧
乐高在国内很火爆,属于小朋友玩具标配

flink
首页 上页 1 2 3 (共3页)