n******7 发帖数: 12463 | 1 想dockerize手上的一些pipeline
保证结果的可重复性,以及pipeline的可移植性
对docker的使用经验仅限于tutorial
感觉有几个思路可以做这个事情,但是不知道那个好
1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
些胶水python code
这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
2.把每个pipeline做出一个image
这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
个image
3. 类似方案1,把每个组件做成image,然后对每个pipeline,在把各个组件的image和
胶水code一起做成一个新的image
这个完美了,但是不知道这种image套image能搞不?
一般大家是怎么做的呢? |
n******7 发帖数: 12463 | |
s******s 发帖数: 13035 | 3 当然是1. 不过中间不用python,你需要的是workflow language.
去查cwl 和 wdl
【在 n******7 的大作中提到】 : 想dockerize手上的一些pipeline : 保证结果的可重复性,以及pipeline的可移植性 : 对docker的使用经验仅限于tutorial : 感觉有几个思路可以做这个事情,但是不知道那个好 : 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一 : 些胶水python code : 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯 : 2.把每个pipeline做出一个image : 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一 : 个image
|
A*****n 发帖数: 243 | 4 Bioinformatics的一些workflow应该是用选项1作的,用所谓的Common Workflow
Language把每一步串起来,重要的是定义好每一步的input/output。如果只是可重复性
的话,描述pipeline的json或者yaml文件就够用了。
【在 n******7 的大作中提到】 : 想dockerize手上的一些pipeline : 保证结果的可重复性,以及pipeline的可移植性 : 对docker的使用经验仅限于tutorial : 感觉有几个思路可以做这个事情,但是不知道那个好 : 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一 : 些胶水python code : 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯 : 2.把每个pipeline做出一个image : 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一 : 个image
|
n******7 发帖数: 12463 | 5 谢谢楼上两位
CWL以前看framework的review paper的时候看过
我个人比较讨厌没有必要的复杂性,所以没有仔细看
特别是之前用GO的时候碰过名字类似的OWL
感觉完全是一帮人闲得蛋疼弄的
除了增加了一些工作岗位,没有任何实际意义
不过看了下“CWL builds on technologies such as JSON-LD for data modeling and
Docker for portable runtime environments.”
还是好好看看
谢谢! |
b****b 发帖数: 656 | 6 如果讨厌CWL的复杂,可以看看Script of Scripts ( http://vatlab.github.io/SOS/ ),用Python,支持Docker,remote execution。唯一的问题是还在beta。
SoS 的最大优点是提供一个从交互分析到批量执行都可以使用的平台,script的可读性
非常强,适合于需要经常修改的bioinformatics pipeline。Docker方面用起来也很简
单,具体就是有什么script,本地可以run,加上 docker_image=name 的option就可以
在docker中执行。我推荐你用SoS写pipeline,根据需要把其中几步放docker中去执行(
诸如说tophat,用python2,不用docker装起来很麻烦)。以后需要在cluster上run了,
只需要几个小的改动就可以了。
入门可以看看 http://vatlab.github.io/SOS/doc/presentations/SoS_BCB_Jan23_2017/index.html , 不过哪个讲的简单,没有提docker。
and
【在 n******7 的大作中提到】 : 谢谢楼上两位 : CWL以前看framework的review paper的时候看过 : 我个人比较讨厌没有必要的复杂性,所以没有仔细看 : 特别是之前用GO的时候碰过名字类似的OWL : 感觉完全是一帮人闲得蛋疼弄的 : 除了增加了一些工作岗位,没有任何实际意义 : 不过看了下“CWL builds on technologies such as JSON-LD for data modeling and : Docker for portable runtime environments.” : 还是好好看看 : 谢谢!
|
N*****m 发帖数: 42603 | 7 用airbnb的airflow吧,算是功能比较全的
【在 n******7 的大作中提到】 : 想dockerize手上的一些pipeline : 保证结果的可重复性,以及pipeline的可移植性 : 对docker的使用经验仅限于tutorial : 感觉有几个思路可以做这个事情,但是不知道那个好 : 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一 : 些胶水python code : 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯 : 2.把每个pipeline做出一个image : 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一 : 个image
|
n******7 发帖数: 12463 | 8 谢谢
我喜欢简单直接的东西
行(
【在 b****b 的大作中提到】 : 如果讨厌CWL的复杂,可以看看Script of Scripts ( http://vatlab.github.io/SOS/ ),用Python,支持Docker,remote execution。唯一的问题是还在beta。 : SoS 的最大优点是提供一个从交互分析到批量执行都可以使用的平台,script的可读性 : 非常强,适合于需要经常修改的bioinformatics pipeline。Docker方面用起来也很简 : 单,具体就是有什么script,本地可以run,加上 docker_image=name 的option就可以 : 在docker中执行。我推荐你用SoS写pipeline,根据需要把其中几步放docker中去执行( : 诸如说tophat,用python2,不用docker装起来很麻烦)。以后需要在cluster上run了, : 只需要几个小的改动就可以了。 : 入门可以看看 http://vatlab.github.io/SOS/doc/presentations/SoS_BCB_Jan23_2017/index.html , 不过哪个讲的简单,没有提docker。 : : and
|
s******s 发帖数: 13035 | 9 btw, 你做什么pipeline呀?NGS?
【在 n******7 的大作中提到】 : 想dockerize手上的一些pipeline : 保证结果的可重复性,以及pipeline的可移植性 : 对docker的使用经验仅限于tutorial : 感觉有几个思路可以做这个事情,但是不知道那个好 : 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一 : 些胶水python code : 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯 : 2.把每个pipeline做出一个image : 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一 : 个image
|
s******s 发帖数: 13035 | 10 Auction也是做生物信息的么?biology版没见过呀
【在 A*****n 的大作中提到】 : Bioinformatics的一些workflow应该是用选项1作的,用所谓的Common Workflow : Language把每一步串起来,重要的是定义好每一步的input/output。如果只是可重复性 : 的话,描述pipeline的json或者yaml文件就够用了。
|
|
|
n******7 发帖数: 12463 | 11 对,各种NGS
【在 s******s 的大作中提到】 : btw, 你做什么pipeline呀?NGS?
|
A*****n 发帖数: 243 | 12 是啊,大部分时间潜水中。这一段时间因为在考察Seven Bridge那一套东西,所以一直
在看Docker和CWL。
【在 s******s 的大作中提到】 : Auction也是做生物信息的么?biology版没见过呀
|
s******s 发帖数: 13035 | 13 楼上两位,有兴趣为治疗癌症奋斗终生么?!!!!
哈哈,其实我想说的是,Genomic Data Commons缺人,地方在芝加哥。
【在 A*****n 的大作中提到】 : 是啊,大部分时间潜水中。这一段时间因为在考察Seven Bridge那一套东西,所以一直 : 在看Docker和CWL。
|
n******7 发帖数: 12463 | 14 癌症是很有兴趣
我以前组的癌症研究方向就是我建议的
现在那个组里面都在做癌症了
我的当时做癌症诊断的文章也快publish了
不过non-profit的工资也就那样
你们那里估计跟我现在拿的差不多
最近被清洁工工资刺激了
我考虑不玩了
【在 s******s 的大作中提到】 : 楼上两位,有兴趣为治疗癌症奋斗终生么?!!!! : 哈哈,其实我想说的是,Genomic Data Commons缺人,地方在芝加哥。
|
s******s 发帖数: 13035 | 15 加州清洁工肯定是追不上了
准备改行清洁工了?哈哈
【在 n******7 的大作中提到】 : 癌症是很有兴趣 : 我以前组的癌症研究方向就是我建议的 : 现在那个组里面都在做癌症了 : 我的当时做癌症诊断的文章也快publish了 : 不过non-profit的工资也就那样 : 你们那里估计跟我现在拿的差不多 : 最近被清洁工工资刺激了 : 我考虑不玩了
|
n******7 发帖数: 12463 | 16 现在改已经晚了十几年 哈哈
【在 s******s 的大作中提到】 : 加州清洁工肯定是追不上了 : 准备改行清洁工了?哈哈
|