由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
PDA版 - 更好整合 kubernete 和 airflow
相关主题
更好整合 kubernete 和 airflow软软的BAND从隐私角度讲是绝对不可接受的
Amazon Silk之邪恶,比Chrome有过之而无不及能推荐个带笔的板子吗?
amazon web service (AWS) 不是第一年使用micro instance免费吗 (转载)大家当个笑话读吧--汉王今年进军美国电子书市场(zz)
谈谈我对email account的看法.I won't use any cloud for anything
AWS 真够水的你妈Amazon的系统真不是盖的
作为曾经的软工,负责的告诉大家:未来是androidCloud Computing云计算概念其实就是IT界忽悠非IT界的一种方式
Python和R之争,看咱行动派做了啥我老来科普一下嘛是云计算
版子里有没有微软DEVOPS牛人? 需要解答些问题。云与云计算科普,高手请绕道
相关话题的讨论汇总
话题: sql话题: kubernete话题: emr话题: airflow话题: ec2
进入PDA版参与讨论
1 (共1页)
d****y
发帖数: 13
1
最近组里有一个project,跑spark sql, input就是SQL读取snowflake,output是
dataframe存到 AWS s3
有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。
再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql
现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?
希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
1 (共1页)
进入PDA版参与讨论
相关主题
云与云计算科普,高手请绕道AWS 真够水的
哪个云盘可以上一个大的加了密的文件容器?作为曾经的软工,负责的告诉大家:未来是android
既然大家这么热情,那就再扯扯“云”吧Python和R之争,看咱行动派做了啥
来,再聊聊第二把斧头:mobile吧版子里有没有微软DEVOPS牛人? 需要解答些问题。
更好整合 kubernete 和 airflow软软的BAND从隐私角度讲是绝对不可接受的
Amazon Silk之邪恶,比Chrome有过之而无不及能推荐个带笔的板子吗?
amazon web service (AWS) 不是第一年使用micro instance免费吗 (转载)大家当个笑话读吧--汉王今年进军美国电子书市场(zz)
谈谈我对email account的看法.I won't use any cloud for anything
相关话题的讨论汇总
话题: sql话题: kubernete话题: emr话题: airflow话题: ec2