由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 现在测序facility的主流计算还是CPU吗
相关主题
Heng Li博后是去cancer genomics还是去human genetics lab?
制药公司招生物信息Senior Information ScientistHeng Li长得就像个天才码农啊
问个whole exome capture之后出来的data要怎么分析求paper
贡献一个SNP/Indel calling pipelinesamtools
请教neurogenomics职业规划samtool view negative strand
生命攸关,请大家帮助我们理解和学习全基因组测序【包子求助】call SNPs 有哪些工具??
现在测序哪家强?能不能找蓝翔啊samtools mpileup 总是报segmentation fault
用WGS寻找疾病structural variation的文章Genetics of Tibetans (转载)
相关话题的讨论汇总
话题: gpu话题: samtools话题: cpu话题: picard话题: java
进入Biology版参与讨论
1 (共1页)
j*********g
发帖数: 463
1
有改到GPU平台吗?
主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
,GPU能快多少呢?
t*****z
发帖数: 1598
2
在我接触到的工作中,依然是CPU。
主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

s******s
发帖数: 13035
3
有啊,不过用的比较少。
不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
flavor
了。
兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

K****n
发帖数: 5970
4
看有没有真的需求。内存和 IO在其它大数据训练问题里也是一样的,用一个CPU线程管
理 I/O,GPU猛算,在不少算法里还是可能的。

flavor

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

K****n
发帖数: 5970
5
哦,要是 FPGA 成熟就不太用 GPU 了

flavor

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

j*********g
发帖数: 463
6
GPU适合高并发。看算法设计,高并发的话GPU就快,并发越高用GPU就越快。如果只是
计算量大,而且计算内容有很强的逻辑关联的话就没法提升多少。
例如:如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算,如果
是f(g(h(i(x))))这种,用GPU也没用。
那么问题来了,目前生物信息和计算生物学的算法设计,适合GPU吗?
最耗时间和资源的部分,就是比对。BWA是为了GPU设计的吗?
据我所知,SOAP3倒是为GPU优化了吧!

【在 t*****z 的大作中提到】
: 在我接触到的工作中,依然是CPU。
: 主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
: 如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

j*********g
发帖数: 463
7
如图,还是快了不少的。

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

s******s
发帖数: 13035
8
实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
是正理。

【在 j*********g 的大作中提到】
: GPU适合高并发。看算法设计,高并发的话GPU就快,并发越高用GPU就越快。如果只是
: 计算量大,而且计算内容有很强的逻辑关联的话就没法提升多少。
: 例如:如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算,如果
: 是f(g(h(i(x))))这种,用GPU也没用。
: 那么问题来了,目前生物信息和计算生物学的算法设计,适合GPU吗?
: 最耗时间和资源的部分,就是比对。BWA是为了GPU设计的吗?
: 据我所知,SOAP3倒是为GPU优化了吧!

j*********g
发帖数: 463
9
刚入门,请教Picard有哪些用处?

:实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
才是正理。

【在 s******s 的大作中提到】
: 实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
: 是正理。

s******s
发帖数: 13035
10
大工具步骤之间的无数小步骤

Picard

【在 j*********g 的大作中提到】
: 刚入门,请教Picard有哪些用处?
:
: :实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
: 才是正理。

相关主题
生命攸关,请大家帮助我们理解和学习全基因组测序博后是去cancer genomics还是去human genetics lab?
现在测序哪家强?能不能找蓝翔啊Heng Li长得就像个天才码农啊
用WGS寻找疾病structural variation的文章求paper
进入Biology版参与讨论
t*****z
发帖数: 1598
11
Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
如何?

【在 s******s 的大作中提到】
: 大工具步骤之间的无数小步骤
:
: Picard

j*********g
发帖数: 463
12
同疑问。还是比对耗费时间。

:Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
:SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
:如何?

【在 t*****z 的大作中提到】
: Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
: SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
: 如何?

n******7
发帖数: 12463
13
我个人不喜欢这种大集成工具包
让简单透明的事情复杂化
上次面试HM问我用过picard没有
说多年以前试过,不熟,他居然有些不爽
一个工具而已,我觉得他水平不行,哈哈
java的运行效率应该不如native的C/C++ code,但是也就慢一倍的样子
可能很多操作瓶颈在disk I/O
兼容性不知道你说的什么,这个应该是java的强项
不过我最近准备研究一下picard的source code
我想自己做点java的通用小工具,照葫芦画瓢最省事

【在 t*****z 的大作中提到】
: Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
: SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
: 如何?

n******7
发帖数: 12463
14
有个公司做很多mapping
他们就是用Xeon Phi,AVX 512很有用
不过为此他们还雇了个专门搞HPC的人
一般都core facility还是run CPU code了

【在 t*****z 的大作中提到】
: 在我接触到的工作中,依然是CPU。
: 主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
: 如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

t*****z
发帖数: 1598
15
JAVA程序的命令行都太冗长了,简直反人类,而且时不时还要考虑内存问题。比如给
BAM文件排序,Picard是:
java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
SORT_ORDER=coordinate
而SAMtools仅仅是:
samtools sort input.bam
我常用SAMtools配合Bash的pipe整出高效且干净的one-liner,例如去除某些序列:
bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
F 256 | samtools sort -@ 16 -n | samtools view -bS | bedtools bamtofastq -i
- -fq out_R1.fq -fq2 out_R2.fq &> output.log
不知道Picard能不能?

【在 n******7 的大作中提到】
: 我个人不喜欢这种大集成工具包
: 让简单透明的事情复杂化
: 上次面试HM问我用过picard没有
: 说多年以前试过,不熟,他居然有些不爽
: 一个工具而已,我觉得他水平不行,哈哈
: java的运行效率应该不如native的C/C++ code,但是也就慢一倍的样子
: 可能很多操作瓶颈在disk I/O
: 兼容性不知道你说的什么,这个应该是java的强项
: 不过我最近准备研究一下picard的source code
: 我想自己做点java的通用小工具,照葫芦画瓢最省事

n******7
发帖数: 12463
16
run jar文件是比较啰嗦
这种大工具集为了风格统一,也会造成一些啰嗦的用法
其实java的文化就是啰嗦但不复杂
因为缺省一些东西意味着你大脑要记住一些默认规则
这就为出问题创造了机会,滥用这点也会增加复杂度
比如就这个samtools,我记得好像就是这个sort命令,在某个版本之前和之后是不一样的
一个版本默认到stdout,需要用-O指定输出文件前缀;一个是直接跟输出文件前缀,
-o是到stdout
具体可能有出入,但是这种问题挺烦人,各个工具也不一样,不如统一规范省心
另一个问题就是pipe的时候,各个工具接收stdin的方式会有不同,有时也是挺烦的
java的控制pipe library我没用过,应该不是问题

-
i

【在 t*****z 的大作中提到】
: JAVA程序的命令行都太冗长了,简直反人类,而且时不时还要考虑内存问题。比如给
: BAM文件排序,Picard是:
: java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
: SORT_ORDER=coordinate
: 而SAMtools仅仅是:
: samtools sort input.bam
: 我常用SAMtools配合Bash的pipe整出高效且干净的one-liner,例如去除某些序列:
: bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
: F 256 | samtools sort -@ 16 -n | samtools view -bS | bedtools bamtofastq -i
: - -fq out_R1.fq -fq2 out_R2.fq &> output.log

f********r
发帖数: 30
17
有啊,我们做的系统就是基于GPU的。 30x WGS fastq -> vcf 20 分钟。 GPU用得好的
话加速效果还是比较明显的。

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

n******7
发帖数: 12463
18
你们的系统是公开的吗?
可否给个链接?

【在 f********r 的大作中提到】
: 有啊,我们做的系统就是基于GPU的。 30x WGS fastq -> vcf 20 分钟。 GPU用得好的
: 话加速效果还是比较明显的。

f********r
发帖数: 30
19
不是公开的。 原型刚做好。刚开始给用户试用。

【在 n******7 的大作中提到】
: 你们的系统是公开的吗?
: 可否给个链接?

n******7
发帖数: 12463
20
30x的数据只用20分钟搞定很牛的
那能否透漏一些在什么上的硬件上面实现的?
alignment是把现有的工具(比如BWA)改到gpu上,
还是你们自己develop的方法?
想起我们有些gpu的node,也许可以玩玩

【在 f********r 的大作中提到】
: 不是公开的。 原型刚做好。刚开始给用户试用。
j*********g
发帖数: 463
21
SOAP3是针对GPU的

:30x的数据只用20分钟搞定很牛的
:那能否透漏一些在什么上的硬件上面实现的?
:alignment是把现有的工具(比如BWA)改到gpu上,
:还是你们自己develop的方法?
:想起我们有些gpu的node,也许可以玩玩

【在 n******7 的大作中提到】
: 30x的数据只用20分钟搞定很牛的
: 那能否透漏一些在什么上的硬件上面实现的?
: alignment是把现有的工具(比如BWA)改到gpu上,
: 还是你们自己develop的方法?
: 想起我们有些gpu的node,也许可以玩玩

1 (共1页)
进入Biology版参与讨论
相关主题
Genetics of Tibetans (转载)请教neurogenomics职业规划
bgi的名声生命攸关,请大家帮助我们理解和学习全基因组测序
NCBI 的 SRA 停了?现在测序哪家强?能不能找蓝翔啊
问个深度测序的问题用WGS寻找疾病structural variation的文章
Heng Li博后是去cancer genomics还是去human genetics lab?
制药公司招生物信息Senior Information ScientistHeng Li长得就像个天才码农啊
问个whole exome capture之后出来的data要怎么分析求paper
贡献一个SNP/Indel calling pipelinesamtools
相关话题的讨论汇总
话题: gpu话题: samtools话题: cpu话题: picard话题: java