|
|
z****e 发帖数: 54598 | 3
你说对了,我早就想做一些傻瓜化vert.x还有db还有flink这些的软件
目前只是等这些东西成熟而已,因为这一堆还没几个版本上1的
但是db这一块可以先做 |
|
z****e 发帖数: 54598 | 4
如果你想多快好省滴完成,就应该认真看看eclipse这种常用轮子
连这种轮子都不会用,谈什么多快好省?这不是搞嘛
什么都省,就是不省人工,which是最贵的东西
就拿你的那个项目来说,我当时认真看了需求
基本上一个vert.x可以解决除了核心算法以外的所有server side需求
你折腾了一堆又是php又是python又是node的,还整合了半天
你不嫌太麻烦么?看了都累
实际上我大概能够猜出一点他们在做什么了
看你还是一脸茫然的样子,给你点拨一下
我现在越来越有信心觉得他们压根没有依赖任何特定的数据集
就是一个common的api,什么数据源都可以接受
不管这个数据源是db,还是nosql,还是xml,还是txt这种纯粹混乱的符号集合
这也差不多是从structured -> unstructured的几个代表
越往unstructured偏,越需要spark这些东西,但是我想的还要更多一点
包括real time的streaming data,所以如果flink能搞定这些的话,就比较完美
能把所有数据统一到一个界面上去的话,不需要做多少特别复杂的转换
光join就足够让人看出很... 阅读全帖 |
|
z*******3 发帖数: 13709 | 5
spark sql的话,应该是一样的
你说的是异步吧?
异步的话,塞入lambda做completion后的回调函数
这样会导致金字塔,用rx模式,subscribe, publish,这样就可以避开金字塔
对vert.x熟悉的话,就比较清楚了
akka也行,但是akka偏复杂难用
spark和flink这些对于akka的封装稍微有些高级了 |
|
B*****g 发帖数: 34098 | 6 开个flink比spark强的帖子他就来了,嘿嘿 |
|
|
d*******r 发帖数: 3299 | 8 就是 flink 都不值一驳了?
zhaoce 说说看呢 |
|
d******e 发帖数: 2265 | 9 我们轻量级的,不用上hadoop.
现在裸写的都是类似。
getSeed.map{
some computation}
map{
some computation by asking external service}
map{
other compuation}
map{other external services}
filter.filter.reduce_by_key.report or save. |
|
|
|
z*******3 发帖数: 13709 | 12 一般streaming的datasource都是kafka之类的
或者是web service,jms这些
hdfs等persistence不太强调streaming |
|
z****e 发帖数: 54598 | 13
不是
py不重要
py有自己的一套eco
用来学习可以,但是遇到企业主流jvm,就挂了
现在是搞统计搞ai的需要企业,因为企业有钱
而非反过来,因为企业的数据,eco基本上都围绕着jvm建设
所以迫使这些进入企业的人类需要一个能够为企业服务的工具
spark就满足了这批人的需求,因为当时只有akka
所以很多东西现在还没有办法做,等vert.x之上有人开始建设spark/flink这种东西之后
各种脚本就都可以支持了,这样py到时候重要性自然就会下降
到时候什么脚本都可以用了,实际上big data很多nosql数据库也都支持js,ruby等脚本
比如couchdb |
|
z****e 发帖数: 54598 | 14 flink,还有你自己写也可以
:lz 都 contribute过ml的code 了,
:why 还感觉 “真正要搞的话,对数学要求bar很高”? |
|
z****e 发帖数: 54598 | 15
rxjava主要是用来弥补java在fp上的不足的
主要应用是streaming部分
你做flink应该清楚,set和stream是两种不同的类型
前者一开始就知道大小,后者对于结束边界搞不清楚
所以涉及streaming的部分,用rxjava比较多
而且streaming部分主要是fp的应用,map(func,a)
如果是fp语言的话,比如clojure,就不怎么需要这个东西
但是java是纯粹的oop语言,所以需要弥补fp上的不足
这个不足就由rxjava来填,当然你换clojure或者scala也可以
这两者的fp部分比java要强不少
vert.x则是一个什么都做的东东
我感觉vert.x是java的延伸,java的特征就是尽一切可能封装各种接口之类的
jvm封装了os的差异,jdbc封装了db connection,hibernate封装了sql的差异
vert.x则封装了file system的差异,还有web protocol的差异,以及各种jvm上脚本的
差异
尽可能提供一个统一的接口,对于所有不同的软件产品
然后还做了其他很多东西,其中reactive和stream... 阅读全帖 |
|
z****e 发帖数: 54598 | 16
这当然不可能
php和go这些都还有其用武之地
包括node这些
但是vert.x对于node+go+akka这种复杂的架构来说
威胁是十分巨大的,因为维护三套不同语言的系统
需要的人力物力成本,远比你维护一套vert.x来得要高得多
复杂度也要高得多
下面就看flink, spark这些哪一个更聪明点,会先手用上vert.x了
或者出现一个更为聪明的项目,直接用vert.x酱紫
又或者是vert.x逐步演变成这么一个项目 |
|
z****e 发帖数: 54598 | 17
vert.x的东西太底层
如果要做到spark这个高度
需要大量的代码堆砌
不划算,如果不是spark的core developer
这个solution显然不对
vert.x倒是可以直接替代akka which被spark和flink都使用的东西 |
|
f********x 发帖数: 99 | 18 说了一大堆,不知道你到底想问什么问题? collectd => Kafka => Flink or Spark
Streaming => Kafka => C* or other NoSQL可能是你需要的架构。
了)
Tag |
|
f******2 发帖数: 2455 | 19 1. 一个client side mvc framework e.g. angular or reactjs
2. 一个大数据处理引擎,e.g, spark or Flink
3. 一个云平台的深入使用, aws or gce
4. 上一刷题培训班
5. 其他(请具体specify)
5选2的话,大家都来说说自己希望学习的知识吧。 |
|
|
N*****m 发帖数: 42603 | 21 就是DataFlow的DSL开源了,好几个星期前的事了
现在搞了个beam的名字
引擎没有开源,然后可以在它自家的DF Service上跑
也可以把spark, flink当引擎
dataflow
apache. |
|
u********s 发帖数: 1047 | 22 这两个属于和spark类似的产品吧,因为spark太火了现在感觉这两个没什么人提起 |
|
N*****m 发帖数: 42603 | 23 storm有yahoo在支持吧,当然本身也是不行了 |
|
u********s 发帖数: 1047 | 24 看storm的网站上应该twitter还有阿里巴巴一些公司也在用storm |
|
w**z 发帖数: 8232 | 25 storm 是 Twitter 买的一个公司搞得,现在应该已经放弃了吧。 |
|
|
N*****m 发帖数: 42603 | 27 用香草hadoop的还是不少的
hive, pig, presto, impala, flink这些都是寄生在hadoop上的 |
|
N*****m 发帖数: 42603 | 28 spark, flink, presto都行。不过,你的原始数据组织得优化一下。
aws redshift刚搞了个spectrum,8秒可以query 6.1 billion rows,数据在s3上面。
30 |
|
d****n 发帖数: 12461 | 29 同问。最近看到这个想搞一搞。不过这也是个大一统的框架,底层还是要靠flink或者
spark来实现。 |
|
d****n 发帖数: 12461 | 30 个人觉得做框架已经做不下去了。因为没有业务逻辑的框架就是个花架子,无论是新马
车beam, heron, apex还是旧马车flink,storm或者spark。 |
|
|
发帖数: 1 | 32 我不知道我理解的對不對,請高手幫忙澄清:
JVM裡內存有兩種分配方式:
1. Java object分配內存,也就是java new,首先使用手動cpu優化版本的new:
hotspot/src/cpu/x86/vm/templateTable_x86_64.cpp TemplateTable::_new()在TLAB
上分配;如果失敗,就去自動編譯的hotspot/src/share/vm/interpreter/
interpreterRuntime.cpp InterpreterRuntime::_new,這裡可能有鎖,性能低。而且
可以被GC回收,應該是managed內存。
2. JVM內部Cpp datastructure native memory allocation,一般C2 compiler做JIT時
需要分配內存,然後JVM會調用arena,arena裡面有chunkpool,裡面的chunk不夠用需
要重新分配時,會調用malloc,並用ThreadCritical的pthread_mutex_lock做保護。例
如:hotspot/src/share/vm/me... 阅读全帖 |
|
r**********9 发帖数: 19633 | 33
还真不知道lego,以前面过一个美国玩具公司的data engineer,要求还挺高要会flink
,做real time的。。。。。。 |
|
l*******r 发帖数: 39279 | 34 好吧
乐高在国内很火爆,属于小朋友玩具标配
flink |
|