由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 简单介绍 Bioinformatics Tools for NGS 分析
相关主题
如何处理RNA-SeqDNA密码的破译者-杨焕明和他的团队(zz)
问个SNP问题Crowd Sourcing
请推荐几家提供 NextGen sequencing 的公司问个人基因组测序的问题
含有indel的reads怎么比对?mRNA next gen Illumina 问题请教
两个靠近的SNP的transmission是独立的吗?RNA-seq结果分析求助
请教个DNA相关的实验问题(ZT) 2008中国百篇最具影响国际论文(生物类)
老美酸溜溜的求科普RNA-sequencing
Can anybody recommend a good Illumina sequencing service?paper help!
相关话题的讨论汇总
话题: rna话题: seq话题: reads话题: dna话题: ucsc
进入Biology版参与讨论
1 (共1页)
j*p
发帖数: 411
1
本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA
binding, epigenetic histome modification (such as H3K4me3, H3K36me3 etc),
DNA methylation etc. and Exon-seq or whole-DNA sequencing to study genetic
variation (SNPs/Indels etc). 从bioinformatics的角度来说,DNA-seq相对比较容易
处理,简单的说,第一步先做alignment,就是把millions of short reads from the
sequencer map back to the genome。很多genome已经有相对完整的reference,这些
genome的whole sequence可以从UCSC genome browserhttp://genome.ucsc.edu/下载。先前已经有朋友贴过现有的alignment tools( http://en.wikipedia.org/wiki/List_of_sequence_alignment_software#Short-Read_Sequence_Alignment),目前比较常用的有bowtie,bwa,maq,soap,从他们各自的网站,应该都可以下载到executable binary或者source code。我们比较常用的是bowtie( http://bowtie-bio.sourceforge.net/index.shtml )和bwa( http://bio-bwa.sourceforge.net/),简单方便速度快(paralyzed);output files例如SAM,BAM format比较standardized,方便后续处理;他们的网站有非常详细的manual。
如果是做ChIP-seq,通常第二步是call peaks。TF的peak一般比较peaky,MACShttp://liulab.dfci.harvard.edu/MACS/00README.html是个不错的peak caller. TF ChIP-seq,一般会在call出peak之后assign peak to gene, in order to find TF regulated genes,这个比较arbitary,overlap of the called peak with gene promoter, enhancer, or use GREAThttp://great.stanford.edu/ to assign genes. 通常TF-DNA binding都有motif,meme(http://meme.sdsc.edu/meme/intro.html)是个不错的motif caller,use meme你可以看看这些TF enriched sites是否有significant motif, you can also check whether a known motif is enriched in a certain genomic region you interested.也就是说,既可以从genomic region找motif,也可以反向从motif找potential binding sites。
Histome modification,例如H3K4me3, K3K36me3,H3K27me3,H3K27ac, etc通常不具有
motif(not expected to),usually people are interested in their position,
downstream genes,how the intensity of peak changes (from average diagram),
whether there is bivalent domain (H3K4me3, H3K27me3) etc. 整体来说,对于ChIP
-seq,可以利用open source tool自己整workflow;可以利用galaxyhttp://main.g2.bx.psu.edu/已有的workflow 和file tools(上面也有详细的tutorial);也可以用Partek Genomic Suite (not free,licence required).后两个适合bench worker使用,非常容易上手。
Exon-seq and whole-DNA-seq asks very different question, usually people are
interested to know genetic variations, such as SNPs, Indels, Copy number
variation and looking for reoccurrence in tumor samples. 第一步alignment几乎
没有什么区别,找genetic variation, SeqGenehttp://sourceforge.net/apps/mediawiki/seqgene/index.php?title=SeqGene是一个比较简单且实用的tool。SNPs/Indels的prediction,基本上是比较准确的,可以说那些high quality的prediction,95%是可以通过sangar sequencing validated。当然在找出SNPs/Indels之后,除了reoccurrence以外(这个需要大量sample),如何去ranking这些SNPs/Indels的重要性,例如处在那些基因,有多少是missense mutation,在一个pathway中有多少基因被mutated,mutation所处的位点是否对some sexy gene的expression有影响,如何linkage with expression data等等,尚处在研究阶段。因此做为marker,reoccurrence mutation的detection有重要意义,但同时其后续的functional study比较难,因为在找到的mutation之中,很难区分哪个是driver,哪个是receiver。除此之外,由于cancer tumor的 heterogeneity,要想发现那些真正在tumor cell里面的mutation,asks for new bioinformatics algorithms。
RNA-seq通常又被称为transcriptome sequencing。RNA-seq can be used to study
RNA expression variation and gene isoforms structure variation between
samples, novel RNA(such as long-intergenic-noncoding RNA)detection, microRNA
targets etc. Sequencing depth对于RNA-seq来讲非常重要,很多,例如novel
transcripts没有deep到一定程度是很难detect到的。现在比较流行的有Illumina
highseq 2000,和Roche 454,前者可以sequence up to 200M reads(pair-end)后者
号称可以detect longer reads up to 800bp(我没用过,不做评论)。从
bioiformatics的角度讲,与DNA-seq相比,RNA-seq要稍微复杂一些,当然也更有意思
。主要需要处理的就是alternative splicing。Tophat( http://tophat.cbcb.umd.edu/)是目前比较流行的RNA-seq aligner。其部分也是基于bowtie,只对bowtie unalignable reads处理的时候,才去考虑splicing。后续对transciptome的prediction,scripturehttp://www.broadinstitute.org/software/scripture/和cufflinkshttp://cufflinks.cbcb.umd.edu/manual.html都是比较常用的reference based transcriptome assembler. 他们的主要作用就是把tophat align好的reads(当然也包括tophat predicted splicing junctions)组装成transcriptome。通过对已知gene annotation(例如RefSeq genes,UCSC genes)等的筛选,可以找到那些处于intergenic 并且有信号的transcripts,而通常这些是novel transcripts。这两个assembler共同的缺点是,在同一个genomic loci都会predict非常多的isoforms,故而FP比较高,但好处是,可以帮助reseracher非常迅速的找到novel transcripts可能处于的位点。除此之外,cufflinks还可以用来检测gene/transcripts expression difference(there are better ways to do this),比较两个assembled transcriptome的不同,merge multiple transcriptome etc.就annotate transcriptome来讲,RNA-seq is much better than previously used tilling-array。
总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
significant genes,但是RNA-seq,单就normalization仍尚无定论。不同之处在于
microarry更类似于模拟信号,sequence 更像数字信号,比microarry 用的probe要更准
确,精度更高。此前业内标准是用RPKM(read per kilo-base of exon per million
reads)来代表gene expression level,其实是比较粗糙的,因为在RNA-seq 的
library中,有些RNA expression非常高,而有些去非常低,variation非常大,如果仅
仅用number of mappable reads来normalize,并不是非常好。相对而言,DESeq(R
package)和next-gen SAM algorithm是比较好的tool,好像他们都是用了quantile
normalization(就是除去两头,用中间的50%做normalization)。
RNA-seq也有被用来做structure variation,我尚未用过一个比较reliable的tool。
RNA-seq也可以用来检测在RNA pool里面是否有bacterial和viral infection,PathSeq
http://www.broadinstitute.org/software/pathseq/index.html给出了一个比较好的pipeline,但是他们的software并不是work非常well,至少不是我想象中那么便于操作,我们自己写了一个。
俗话说,眼见为实,信号的visulazation对很多ongoing project有非常重要的意义,
有的甚至可以改变问题的问法。我们lab应该说,都是UCSC genome browser的忠实用户
,理由:1.UCSC 提供很多已经做好的track,例如各种gene annotation,Encode/
Gencode里面TF和histome marker的ChIP-seq/RNA-seq信号等等,只要active就可以看
到;2.可以无限量upload custom tracks from your own data, and share the link
to whoever you want to. 在做自己的track的时候,通常会遇到很多file format
conversion,UCSC自己有一套convert tools(http://hgdownload.cse.ucsc.edu/admin/exe/macOSX.i386/), BedToolshttp://code.google.com/p/bedtools/也是比较常用的。具体来讲,就是通过这些tool,把align好的reads(usually in SAM or BAM format)变成UCSC tracks(UCSC has a number of accepted track file formats: http://genome.ucsc.edu/goldenPath/help/customTrack.html)。UCSC 还support HTTP and FTP for tracks, usually if a file is greater than 300M, we will put it on Amazon cloud and give the link to UCSC, and we will see the track,and it’s actually very fast.
综上,简单的介绍了一些据我所知的NGS前期数据分析方法,对于每一个project而言,
其问题的提法不同,所需要用到的后续工具也不同,很多情况下需要自己写script去解
决。随着实验技术和软件技术的发展,我相信越来越多的非常有趣的问题可以通过一些
整合的方法得以解决,或者可以通过整合的方法得到解决这些问题的hint。
请大家批评指正。
m*****z
发帖数: 1451
2
学习了!
e********r
发帖数: 2352
3
谢谢分享,名字好牛哈.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

t*d
发帖数: 1290
4
太好了。多谢分享!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

s*****0
发帖数: 357
5
好贴总是乏人顶,我来帮帮忙.
楼主的认识颇有广度,看来没少接触相关的材料和人群,也不忘与众人分享,这也本该是
对待职业和人生的态度,相信楼主的路会越走越宽.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c*********r
发帖数: 1312
6
顶!辛苦总结了,看了很受用!
顺便问大牛一个问题,clc genomics benchwork有没有用过或者听说过?好用吗?我没
有编程基础,所以想先找个界面友好的软件练练手,学习学习。
多谢了!^_^

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

j*p
发帖数: 411
7
1. 我没有用过clc genomics benchwork,故而不知其是否好用。
2. 我用过不少需要licence的software,总体感觉不如free(open source)的
software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
要钱的softwre有偏见,当然,也因为我比较穷。
3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
,还有非常好的tutorial,后者有很多RNA-seq pipeline。
4. 如果你们单位有licence,可以尝试partek 。
c*********r
发帖数: 1312
8
我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
最爱经验交流贴了。^_^

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

j*p
发帖数: 411
9
I forgot to talk about de novo assembly, and thank you for making this point.
For de novo assembly, you can try SOAPdenovo" http://soap.genomics.org.cn/soapdenovo.html", BGI actually has a lot SOAP series, I've never tried and compared to the others, but will soon, I guess.
I did try trinity from Broad "http://trinityrnaseq.sourceforge.net/". very similar algorithms, but people from Broad definitely have more connections than BGI, and I guess that was the main reason why their story gets published on Nature. Biotech.(too far away from the topic)
Usually de novo assembly takes much more RAM than reference based assembly,
so it should work for small genomes, for large genome like human/mouse, what
people usually do is locate a loci, extract reads mapped to this loci, and
do local de novo assembly. This local de novo assembly was also used for SNP
detection in some algorithms.
c*********r
发帖数: 1312
10
我们领域做过的牛人也用过Trinity。听有经验的人都说de novo耗内存,Trinity说需
要1G RAM per 1M ~76 base Illumina paired reads。还好我做的transcriptome大概
12M 左右的reads,现在在准备装一个小型的工作站,先用16G 内存试一试看够不够。
有机会也去试试BGI的,BGI现在连着几期都在Nature上做广告了,知名度也在提升啊。
希望他家的东西也不错。^_^

point.
,
what
and
SNP

【在 j*p 的大作中提到】
: I forgot to talk about de novo assembly, and thank you for making this point.
: For de novo assembly, you can try SOAPdenovo" http://soap.genomics.org.cn/soapdenovo.html", BGI actually has a lot SOAP series, I've never tried and compared to the others, but will soon, I guess.
: I did try trinity from Broad "http://trinityrnaseq.sourceforge.net/". very similar algorithms, but people from Broad definitely have more connections than BGI, and I guess that was the main reason why their story gets published on Nature. Biotech.(too far away from the topic)
: Usually de novo assembly takes much more RAM than reference based assembly,
: so it should work for small genomes, for large genome like human/mouse, what
: people usually do is locate a loci, extract reads mapped to this loci, and
: do local de novo assembly. This local de novo assembly was also used for SNP
: detection in some algorithms.

相关主题
请教个DNA相关的实验问题DNA密码的破译者-杨焕明和他的团队(zz)
老美酸溜溜的Crowd Sourcing
Can anybody recommend a good Illumina sequencing service?问个人基因组测序的问题
进入Biology版参与讨论
c****r
发帖数: 576
11
东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
“总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
significant genes,但是RNA-seq,单就normalization仍尚无定论。”
完全可以改成
“总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找
显著变化基因,但是RNA测序,单就标准化仍尚无定论。”
D*a
发帖数: 6830
12
mark,一直对NGS很感兴趣。
请问楼主,如果没有生物信息的背景知识上手快么?想看看自己以后的方向。
D*a
发帖数: 6830
13
你看着别扭就不看呗,又不是没有review文章(哦对了,那叫综述文章),全英文,一
篇篇看不是正合你意,何必来论坛。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

q******g
发帖数: 3858
14
好文,谢谢楼主了
O******e
发帖数: 4845
15
这又不是在中国,夹杂点英语,尤其是那些名词,真的没什么大不了的。而且很多
词你一旦翻成中文,说不定很多人都看不懂了,呵呵

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

c****r
发帖数: 576
16
我看不看是我自己的事,关你什么事,还用得着你来教导。论坛本来就是可以各抒己见
的地方。

【在 D*a 的大作中提到】
: 你看着别扭就不看呗,又不是没有review文章(哦对了,那叫综述文章),全英文,一
: 篇篇看不是正合你意,何必来论坛。
:
: 是最

t****u
发帖数: 709
17
makr,正在学习,多谢了

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c****r
发帖数: 576
18
这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
http://www.nibs.ac.cn/?act=view&id=72
http://www.nibs.ac.cn/?act=view&id=70
http://www.nibs.ac.cn/?act=view&id=67
一家之言,不要打击lz写作积极性。
有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。
注:
我只在这一帖子里面更新,因为不想影响主帖。

【在 O******e 的大作中提到】
: 这又不是在中国,夹杂点英语,尤其是那些名词,真的没什么大不了的。而且很多
: 词你一旦翻成中文,说不定很多人都看不懂了,呵呵
:
: 是最

D*a
发帖数: 6830
19
那我也就是抒了一下我的见呗。

见的地方。

【在 c****r 的大作中提到】
: 我看不看是我自己的事,关你什么事,还用得着你来教导。论坛本来就是可以各抒己见
: 的地方。

e****e
发帖数: 3450
20
好帖一定要顶

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

相关主题
mRNA next gen Illumina 问题请教求科普RNA-sequencing
RNA-seq结果分析求助paper help!
(ZT) 2008中国百篇最具影响国际论文(生物类)请教RNA-seq 软件的安装调试的问题!
进入Biology版参与讨论
A*****O
发帖数: 394
21
有点吹毛了...
一些必要的英文专业词汇,容易让人对应上,挺好的。
生物学上的microarry翻译成微阵列,还真是挺别扭的。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

B*********r
发帖数: 19
22
这个不必求全责备了,毕竟这只是非正式的个人交流,当然是作者觉得怎么方便怎么舒
服怎么来,对有兴趣的读者也不会造成太大的困扰。用词妥善翻译恰当,这个要求毕竟
有点高,人家也没有这个义务啊。
个人观点,如果技术性帖子中英夹杂的话,名词用英语,动词基本用中文是完全可以接
受的。而“run一下这个东东,看看是不是work”,这样的表述,就显得很没格调了,
呵呵,当然这全是个人选择

。一家之言,不要打击lz写作积极性。

【在 c****r 的大作中提到】
: 这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
: 文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
: 子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
: 建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
: http://www.nibs.ac.cn/?act=view&id=72
: http://www.nibs.ac.cn/?act=view&id=70
: http://www.nibs.ac.cn/?act=view&id=67
: 一家之言,不要打击lz写作积极性。
: 有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
: 这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。

e**s
发帖数: 513
23
The audience are in the US! Why LZ has to use all Chinese?

译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂
的。看看NIBS各老板的简介吧,随便摘几个:

【在 c****r 的大作中提到】
: 这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
: 文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
: 子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
: 建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
: http://www.nibs.ac.cn/?act=view&id=72
: http://www.nibs.ac.cn/?act=view&id=70
: http://www.nibs.ac.cn/?act=view&id=67
: 一家之言,不要打击lz写作积极性。
: 有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
: 这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。

e**s
发帖数: 513
24
Thank you very much! This is just what I want to learn now.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

e****e
发帖数: 3450
25
楼主花这么多时间热心给大家敲字就不容易了,又不是发表论文.谁要觉得写得不够好可
以改写一下么,内容胜过形式

【在 A*****O 的大作中提到】
: 有点吹毛了...
: 一些必要的英文专业词汇,容易让人对应上,挺好的。
: 生物学上的microarry翻译成微阵列,还真是挺别扭的。
:
: 是最

y********a
发帖数: 138
26
agree,free packages from academia are much more flexible and suitable for
accuracy/methodology-driven bioinformatics folks.
For general folks who care only the most significant biology phenotypes, any
published tools should be fine. Be aware many simply treats seq data as
array data after some transformations, which may not be statistically robust.
From personal experiences,actually the quality control of data prior to any
of these tools is more critical to the end results.

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

e****e
发帖数: 3450
27
对expression difference的分析,除了cuffdiff,DEseq,楼主还有什么别的好工具推荐
的么?
谢谢!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

d***y
发帖数: 8536
28
感谢,收藏了。
j*p
发帖数: 411
29
对expression difference的分析,除了cuffdiff,DEseq,楼主还有什么别的好工具推荐
的么?
SAMseq:"http://www-stat.stanford.edu/~tibs/SAM/"
l*****a
发帖数: 1431
30
想问个实验设计的问题。我们有一个病人和他父母的RNA,想比较一下RNA splicing,
因为病人在一个和RNA splicing 有关的gene上有个突变。做exome array的人说sample
不够,没法做statistics。就想问一下,如果做RNA seq 是不是可以回避统计的问题。
谢谢!
相关主题
RNA-seq map工具问个SNP问题
敬请推荐有关的mir论文给在下学习借鉴请推荐几家提供 NextGen sequencing 的公司
如何处理RNA-Seq含有indel的reads怎么比对?
进入Biology版参与讨论
j*p
发帖数: 411
31
1. 理论上说,只要所研究的基因有足够的reads(最好是pair-end),那么,要确定
splicing isoforms应该不是很难的事情, 可以查询一下两个方法(我虽知道有,但都没
试过): "NSMAP: a method for spliced isoforms identification and
quantification from RNA-Seq", "SpliceTrap: a method to quantify alternative
splicing under single cellular conditions"
2. 假设,比较病人和他父母RNA splicing之后,发现有很多基因存在不同的splicing,这
并不能代表你所说的"和RNA splicing 有关的gene"上面的突变是引起这种疾病的原因,
甚至不能代表这个突变能够用来做为检测这种疾病的marker,因为sample不够.如果你说
的是这种"sample不够,没法做statistics", 那么我以为它不能通过RNA-seq来回避.

sample

【在 l*****a 的大作中提到】
: 想问个实验设计的问题。我们有一个病人和他父母的RNA,想比较一下RNA splicing,
: 因为病人在一个和RNA splicing 有关的gene上有个突变。做exome array的人说sample
: 不够,没法做statistics。就想问一下,如果做RNA seq 是不是可以回避统计的问题。
: 谢谢!

b***g
发帖数: 516
32
好贴,mark之!
l*****a
发帖数: 1431
33
第2点不是很理解。我们很肯定这个mutation就是造成这种病的原因。现在就想作一些
功能方面的研究。如果有RNA seq发现有isoform上的不同,肯定还会近一步验证。这样
的话也不行吗?

alternative
因,

【在 j*p 的大作中提到】
: 1. 理论上说,只要所研究的基因有足够的reads(最好是pair-end),那么,要确定
: splicing isoforms应该不是很难的事情, 可以查询一下两个方法(我虽知道有,但都没
: 试过): "NSMAP: a method for spliced isoforms identification and
: quantification from RNA-Seq", "SpliceTrap: a method to quantify alternative
: splicing under single cellular conditions"
: 2. 假设,比较病人和他父母RNA splicing之后,发现有很多基因存在不同的splicing,这
: 并不能代表你所说的"和RNA splicing 有关的gene"上面的突变是引起这种疾病的原因,
: 甚至不能代表这个突变能够用来做为检测这种疾病的marker,因为sample不够.如果你说
: 的是这种"sample不够,没法做statistics", 那么我以为它不能通过RNA-seq来回避.
:

h**********8
发帖数: 650
34
感谢科普贴!
请大家不要吹毛吹歪了楼。

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

h**********8
发帖数: 650
35
欢迎CELLER给翻译成全中文的
改完我给包子
大家做证
呵呵

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

j*p
发帖数: 411
36
我也不是很理解,你可以作功能方面的研究,你也可以说,由于这个病人有这个mutation,
改变了他很多gene splicing,从而使的这个病人患上这种疾病.我不觉得这样的story和
统计有什么关系.但是,人家会问,如果这个mutation是造成这种疾病的原因,那么在其他
患相同疾病的患者身上有没有这个mutation?又有多少其他的患者携带这个或者类似紊
乱splicing regulator 的mutation?这就和统计有关了,并且这两个问题显然不能通过
一个病例得到回答.RNA-seq只能帮助你确定gene splicing,并不能帮助你回答这两个问
题.

【在 l*****a 的大作中提到】
: 第2点不是很理解。我们很肯定这个mutation就是造成这种病的原因。现在就想作一些
: 功能方面的研究。如果有RNA seq发现有isoform上的不同,肯定还会近一步验证。这样
: 的话也不行吗?
:
: alternative
: 因,

Y**I
发帖数: 444
37
同学,你的翻译看着更累。
micoarray翻译成微矩阵,词不达意。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

t******r
发帖数: 209
38
作为一个两年经验的说两句
clc: best for 454 data assembling
各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput
c*********r
发帖数: 1312
39
de novo assembly呢?^_^

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

w**c
发帖数: 167
40
写的真好,受用了。只是这里“quantile normalization(就是除去两头,用中间的50%
做normalization)” 不是很准确吧,quantile normalization是一种将数据排序取均
值并奕原位置放回的方法。
相关主题
含有indel的reads怎么比对?老美酸溜溜的
两个靠近的SNP的transmission是独立的吗?Can anybody recommend a good Illumina sequencing service?
请教个DNA相关的实验问题DNA密码的破译者-杨焕明和他的团队(zz)
进入Biology版参与讨论
n******7
发帖数: 12463
41
请问没钱的用什么aligner处理454好?而且需要spliced alignment?
tophat-bowtie 号称对长序列不好
bwa-sw 不能产生spliced alignment...

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

p***a
发帖数: 6202
42
zan
w****m
发帖数: 38
43
请问clc的SNP/INDEL CALLING怎么样啊?和OPEN SOURCE的比较而言。。
谢谢!

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

w****m
发帖数: 38
44
请问QUALITY CONTROL指的是READ TRIMMING/FILTERING吗?有什么好的软件推荐啊?
谢谢!

any
robust.
any

【在 y********a 的大作中提到】
: agree,free packages from academia are much more flexible and suitable for
: accuracy/methodology-driven bioinformatics folks.
: For general folks who care only the most significant biology phenotypes, any
: published tools should be fine. Be aware many simply treats seq data as
: array data after some transformations, which may not be statistically robust.
: From personal experiences,actually the quality control of data prior to any
: of these tools is more critical to the end results.
:
: pipeline

B*M
发帖数: 1418
45
galaxy 感觉使着不是很顺手.我可以用tophat拿到accepted hits和splice junctions.
然后我用cufflinks 就怎么也跑不出结果!.
在这之前,我还得把raw data groomer...
我还是用了一个小的sample.

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

B*M
发帖数: 1418
46
很喜欢这个帖子,希望可以继续热烈讨论,别把楼盖歪~~
我想提的是,如果自己是wet lab出身的,想开始学linux 编程,至少可以run bowtie,
tophat 之类的,有什么好的入门教材推荐吗?
还是就是bowtie, tophat只能在linux or mac 系统跑. windows我们在课上试过,中间
stuck,因为一个什么package 找不到...
B*M
发帖数: 1418
47
co ask..

【在 w****m 的大作中提到】
: 请问clc的SNP/INDEL CALLING怎么样啊?和OPEN SOURCE的比较而言。。
: 谢谢!

B*M
发帖数: 1418
48
还有一个很好的论坛, http://seqanswers.com/
有时很快就从developer那得到答案
j*p
发帖数: 411
49
what do you mean by "然后我用cufflinks 就怎么也跑不出结果"?
cufflinks should be able to take output files directly from tophat. Also,
you may want to install the recent version of cufflinks, the developers made
significant improvement predicting transcripts, and allow the user to give
kind of reference transcriptome in .gtf format.

junctions.

【在 B*M 的大作中提到】
: galaxy 感觉使着不是很顺手.我可以用tophat拿到accepted hits和splice junctions.
: 然后我用cufflinks 就怎么也跑不出结果!.
: 在这之前,我还得把raw data groomer...
: 我还是用了一个小的sample.

B*M
发帖数: 1418
50
I mean the run will not finish, I got red cross...
I am running it through galaxy, I thought I don't need to install cufflinks
on my computer.
相关主题
Crowd SourcingRNA-seq结果分析求助
问个人基因组测序的问题(ZT) 2008中国百篇最具影响国际论文(生物类)
mRNA next gen Illumina 问题请教求科普RNA-sequencing
进入Biology版参与讨论
j*p
发帖数: 411
51
GenePattern probably has better RNA-seq pipelines. People who develops
Tophat and Scripture are both with Broad now.
f*******e
发帖数: 628
52
学到了,原来 microarray 是 微阵列,以后爹妈问起来在做什么可以这么讲。
另外,array 里面数据的 normalization 在我理解好像不是 标准化 的意思,至少用
标准化翻译不是很确切。不过也许中文里面约定俗成这么翻译?从前国内时候没学过。
对了,RNA 最好也翻译作核糖核酸,不然爹妈听不懂。这个从前在国内还是学到过的。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

a****d
发帖数: 1919
53
H*******g
发帖数: 321
54
mark
j*p
发帖数: 411
55
本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA
binding, epigenetic histome modification (such as H3K4me3, H3K36me3 etc),
DNA methylation etc. and Exon-seq or whole-DNA sequencing to study genetic
variation (SNPs/Indels etc). 从bioinformatics的角度来说,DNA-seq相对比较容易
处理,简单的说,第一步先做alignment,就是把millions of short reads from the
sequencer map back to the genome。很多genome已经有相对完整的reference,这些
genome的whole sequence可以从UCSC genome browserhttp://genome.ucsc.edu/下载。先前已经有朋友贴过现有的alignment tools( http://en.wikipedia.org/wiki/List_of_sequence_alignment_software#Short-Read_Sequence_Alignment),目前比较常用的有bowtie,bwa,maq,soap,从他们各自的网站,应该都可以下载到executable binary或者source code。我们比较常用的是bowtie( http://bowtie-bio.sourceforge.net/index.shtml )和bwa( http://bio-bwa.sourceforge.net/),简单方便速度快(paralyzed);output files例如SAM,BAM format比较standardized,方便后续处理;他们的网站有非常详细的manual。
如果是做ChIP-seq,通常第二步是call peaks。TF的peak一般比较peaky,MACShttp://liulab.dfci.harvard.edu/MACS/00README.html是个不错的peak caller. TF ChIP-seq,一般会在call出peak之后assign peak to gene, in order to find TF regulated genes,这个比较arbitary,overlap of the called peak with gene promoter, enhancer, or use GREAThttp://great.stanford.edu/ to assign genes. 通常TF-DNA binding都有motif,meme(http://meme.sdsc.edu/meme/intro.html)是个不错的motif caller,use meme你可以看看这些TF enriched sites是否有significant motif, you can also check whether a known motif is enriched in a certain genomic region you interested.也就是说,既可以从genomic region找motif,也可以反向从motif找potential binding sites。
Histome modification,例如H3K4me3, K3K36me3,H3K27me3,H3K27ac, etc通常不具有
motif(not expected to),usually people are interested in their position,
downstream genes,how the intensity of peak changes (from average diagram),
whether there is bivalent domain (H3K4me3, H3K27me3) etc. 整体来说,对于ChIP
-seq,可以利用open source tool自己整workflow;可以利用galaxyhttp://main.g2.bx.psu.edu/已有的workflow 和file tools(上面也有详细的tutorial);也可以用Partek Genomic Suite (not free,licence required).后两个适合bench worker使用,非常容易上手。
Exon-seq and whole-DNA-seq asks very different question, usually people are
interested to know genetic variations, such as SNPs, Indels, Copy number
variation and looking for reoccurrence in tumor samples. 第一步alignment几乎
没有什么区别,找genetic variation, SeqGenehttp://sourceforge.net/apps/mediawiki/seqgene/index.php?title=SeqGene是一个比较简单且实用的tool。SNPs/Indels的prediction,基本上是比较准确的,可以说那些high quality的prediction,95%是可以通过sangar sequencing validated。当然在找出SNPs/Indels之后,除了reoccurrence以外(这个需要大量sample),如何去ranking这些SNPs/Indels的重要性,例如处在那些基因,有多少是missense mutation,在一个pathway中有多少基因被mutated,mutation所处的位点是否对some sexy gene的expression有影响,如何linkage with expression data等等,尚处在研究阶段。因此做为marker,reoccurrence mutation的detection有重要意义,但同时其后续的functional study比较难,因为在找到的mutation之中,很难区分哪个是driver,哪个是receiver。除此之外,由于cancer tumor的 heterogeneity,要想发现那些真正在tumor cell里面的mutation,asks for new bioinformatics algorithms。
RNA-seq通常又被称为transcriptome sequencing。RNA-seq can be used to study
RNA expression variation and gene isoforms structure variation between
samples, novel RNA(such as long-intergenic-noncoding RNA)detection, microRNA
targets etc. Sequencing depth对于RNA-seq来讲非常重要,很多,例如novel
transcripts没有deep到一定程度是很难detect到的。现在比较流行的有Illumina
highseq 2000,和Roche 454,前者可以sequence up to 200M reads(pair-end)后者
号称可以detect longer reads up to 800bp(我没用过,不做评论)。从
bioiformatics的角度讲,与DNA-seq相比,RNA-seq要稍微复杂一些,当然也更有意思
。主要需要处理的就是alternative splicing。Tophat( http://tophat.cbcb.umd.edu/)是目前比较流行的RNA-seq aligner。其部分也是基于bowtie,只对bowtie unalignable reads处理的时候,才去考虑splicing。后续对transciptome的prediction,scripturehttp://www.broadinstitute.org/software/scripture/和cufflinkshttp://cufflinks.cbcb.umd.edu/manual.html都是比较常用的reference based transcriptome assembler. 他们的主要作用就是把tophat align好的reads(当然也包括tophat predicted splicing junctions)组装成transcriptome。通过对已知gene annotation(例如RefSeq genes,UCSC genes)等的筛选,可以找到那些处于intergenic 并且有信号的transcripts,而通常这些是novel transcripts。这两个assembler共同的缺点是,在同一个genomic loci都会predict非常多的isoforms,故而FP比较高,但好处是,可以帮助reseracher非常迅速的找到novel transcripts可能处于的位点。除此之外,cufflinks还可以用来检测gene/transcripts expression difference(there are better ways to do this),比较两个assembled transcriptome的不同,merge multiple transcriptome etc.就annotate transcriptome来讲,RNA-seq is much better than previously used tilling-array。
总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
significant genes,但是RNA-seq,单就normalization仍尚无定论。不同之处在于
microarry更类似于模拟信号,sequence 更像数字信号,比microarry 用的probe要更准
确,精度更高。此前业内标准是用RPKM(read per kilo-base of exon per million
reads)来代表gene expression level,其实是比较粗糙的,因为在RNA-seq 的
library中,有些RNA expression非常高,而有些去非常低,variation非常大,如果仅
仅用number of mappable reads来normalize,并不是非常好。相对而言,DESeq(R
package)和next-gen SAM algorithm是比较好的tool,好像他们都是用了quantile
normalization(就是除去两头,用中间的50%做normalization)。
RNA-seq也有被用来做structure variation,我尚未用过一个比较reliable的tool。
RNA-seq也可以用来检测在RNA pool里面是否有bacterial和viral infection,PathSeq
http://www.broadinstitute.org/software/pathseq/index.html给出了一个比较好的pipeline,但是他们的software并不是work非常well,至少不是我想象中那么便于操作,我们自己写了一个。
俗话说,眼见为实,信号的visulazation对很多ongoing project有非常重要的意义,
有的甚至可以改变问题的问法。我们lab应该说,都是UCSC genome browser的忠实用户
,理由:1.UCSC 提供很多已经做好的track,例如各种gene annotation,Encode/
Gencode里面TF和histome marker的ChIP-seq/RNA-seq信号等等,只要active就可以看
到;2.可以无限量upload custom tracks from your own data, and share the link
to whoever you want to. 在做自己的track的时候,通常会遇到很多file format
conversion,UCSC自己有一套convert tools(http://hgdownload.cse.ucsc.edu/admin/exe/macOSX.i386/), BedToolshttp://code.google.com/p/bedtools/也是比较常用的。具体来讲,就是通过这些tool,把align好的reads(usually in SAM or BAM format)变成UCSC tracks(UCSC has a number of accepted track file formats: http://genome.ucsc.edu/goldenPath/help/customTrack.html)。UCSC 还support HTTP and FTP for tracks, usually if a file is greater than 300M, we will put it on Amazon cloud and give the link to UCSC, and we will see the track,and it’s actually very fast.
综上,简单的介绍了一些据我所知的NGS前期数据分析方法,对于每一个project而言,
其问题的提法不同,所需要用到的后续工具也不同,很多情况下需要自己写script去解
决。随着实验技术和软件技术的发展,我相信越来越多的非常有趣的问题可以通过一些
整合的方法得以解决,或者可以通过整合的方法得到解决这些问题的hint。
请大家批评指正。
m*****z
发帖数: 1451
56
学习了!
e********r
发帖数: 2352
57
谢谢分享,名字好牛哈.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

t*d
发帖数: 1290
58
太好了。多谢分享!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

s*****0
发帖数: 357
59
好贴总是乏人顶,我来帮帮忙.
楼主的认识颇有广度,看来没少接触相关的材料和人群,也不忘与众人分享,这也本该是
对待职业和人生的态度,相信楼主的路会越走越宽.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c*********r
发帖数: 1312
60
顶!辛苦总结了,看了很受用!
顺便问大牛一个问题,clc genomics benchwork有没有用过或者听说过?好用吗?我没
有编程基础,所以想先找个界面友好的软件练练手,学习学习。
多谢了!^_^

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

相关主题
paper help!敬请推荐有关的mir论文给在下学习借鉴
请教RNA-seq 软件的安装调试的问题!如何处理RNA-Seq
RNA-seq map工具问个SNP问题
进入Biology版参与讨论
j*p
发帖数: 411
61
1. 我没有用过clc genomics benchwork,故而不知其是否好用。
2. 我用过不少需要licence的software,总体感觉不如free(open source)的
software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
要钱的softwre有偏见,当然,也因为我比较穷。
3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
,还有非常好的tutorial,后者有很多RNA-seq pipeline。
4. 如果你们单位有licence,可以尝试partek 。
c*********r
发帖数: 1312
62
我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
最爱经验交流贴了。^_^

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

j*p
发帖数: 411
63
I forgot to talk about de novo assembly, and thank you for making this point.
For de novo assembly, you can try SOAPdenovo" http://soap.genomics.org.cn/soapdenovo.html", BGI actually has a lot SOAP series, I've never tried and compared to the others, but will soon, I guess.
I did try trinity from Broad "http://trinityrnaseq.sourceforge.net/". very similar algorithms, but people from Broad definitely have more connections than BGI, and I guess that was the main reason why their story gets published on Nature. Biotech.(too far away from the topic)
Usually de novo assembly takes much more RAM than reference based assembly,
so it should work for small genomes, for large genome like human/mouse, what
people usually do is locate a loci, extract reads mapped to this loci, and
do local de novo assembly. This local de novo assembly was also used for SNP
detection in some algorithms.
c*********r
发帖数: 1312
64
我们领域做过的牛人也用过Trinity。听有经验的人都说de novo耗内存,Trinity说需
要1G RAM per 1M ~76 base Illumina paired reads。还好我做的transcriptome大概
12M 左右的reads,现在在准备装一个小型的工作站,先用16G 内存试一试看够不够。
有机会也去试试BGI的,BGI现在连着几期都在Nature上做广告了,知名度也在提升啊。
希望他家的东西也不错。^_^

point.
,
what
and
SNP

【在 j*p 的大作中提到】
: I forgot to talk about de novo assembly, and thank you for making this point.
: For de novo assembly, you can try SOAPdenovo" http://soap.genomics.org.cn/soapdenovo.html", BGI actually has a lot SOAP series, I've never tried and compared to the others, but will soon, I guess.
: I did try trinity from Broad "http://trinityrnaseq.sourceforge.net/". very similar algorithms, but people from Broad definitely have more connections than BGI, and I guess that was the main reason why their story gets published on Nature. Biotech.(too far away from the topic)
: Usually de novo assembly takes much more RAM than reference based assembly,
: so it should work for small genomes, for large genome like human/mouse, what
: people usually do is locate a loci, extract reads mapped to this loci, and
: do local de novo assembly. This local de novo assembly was also used for SNP
: detection in some algorithms.

c****r
发帖数: 576
65
东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
“总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
significant genes,但是RNA-seq,单就normalization仍尚无定论。”
完全可以改成
“总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找
显著变化基因,但是RNA测序,单就标准化仍尚无定论。”
D*a
发帖数: 6830
66
mark,一直对NGS很感兴趣。
请问楼主,如果没有生物信息的背景知识上手快么?想看看自己以后的方向。
D*a
发帖数: 6830
67
你看着别扭就不看呗,又不是没有review文章(哦对了,那叫综述文章),全英文,一
篇篇看不是正合你意,何必来论坛。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

q******g
发帖数: 3858
68
好文,谢谢楼主了
O******e
发帖数: 4845
69
这又不是在中国,夹杂点英语,尤其是那些名词,真的没什么大不了的。而且很多
词你一旦翻成中文,说不定很多人都看不懂了,呵呵

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

c****r
发帖数: 576
70
我看不看是我自己的事,关你什么事,还用得着你来教导。论坛本来就是可以各抒己见
的地方。

【在 D*a 的大作中提到】
: 你看着别扭就不看呗,又不是没有review文章(哦对了,那叫综述文章),全英文,一
: 篇篇看不是正合你意,何必来论坛。
:
: 是最

相关主题
问个SNP问题两个靠近的SNP的transmission是独立的吗?
请推荐几家提供 NextGen sequencing 的公司请教个DNA相关的实验问题
含有indel的reads怎么比对?老美酸溜溜的
进入Biology版参与讨论
t****u
发帖数: 709
71
makr,正在学习,多谢了

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c****r
发帖数: 576
72
这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
http://www.nibs.ac.cn/?act=view&id=72
http://www.nibs.ac.cn/?act=view&id=70
http://www.nibs.ac.cn/?act=view&id=67
一家之言,不要打击lz写作积极性。
有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。
注:
我只在这一帖子里面更新,因为不想影响主帖。

【在 O******e 的大作中提到】
: 这又不是在中国,夹杂点英语,尤其是那些名词,真的没什么大不了的。而且很多
: 词你一旦翻成中文,说不定很多人都看不懂了,呵呵
:
: 是最

D*a
发帖数: 6830
73
那我也就是抒了一下我的见呗。

见的地方。

【在 c****r 的大作中提到】
: 我看不看是我自己的事,关你什么事,还用得着你来教导。论坛本来就是可以各抒己见
: 的地方。

e****e
发帖数: 3450
74
好帖一定要顶

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

A*****O
发帖数: 394
75
有点吹毛了...
一些必要的英文专业词汇,容易让人对应上,挺好的。
生物学上的microarry翻译成微阵列,还真是挺别扭的。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

B*********r
发帖数: 19
76
这个不必求全责备了,毕竟这只是非正式的个人交流,当然是作者觉得怎么方便怎么舒
服怎么来,对有兴趣的读者也不会造成太大的困扰。用词妥善翻译恰当,这个要求毕竟
有点高,人家也没有这个义务啊。
个人观点,如果技术性帖子中英夹杂的话,名词用英语,动词基本用中文是完全可以接
受的。而“run一下这个东东,看看是不是work”,这样的表述,就显得很没格调了,
呵呵,当然这全是个人选择

。一家之言,不要打击lz写作积极性。

【在 c****r 的大作中提到】
: 这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
: 文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
: 子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
: 建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
: http://www.nibs.ac.cn/?act=view&id=72
: http://www.nibs.ac.cn/?act=view&id=70
: http://www.nibs.ac.cn/?act=view&id=67
: 一家之言,不要打击lz写作积极性。
: 有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
: 这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。

e**s
发帖数: 513
77
The audience are in the US! Why LZ has to use all Chinese?

译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂
的。看看NIBS各老板的简介吧,随便摘几个:

【在 c****r 的大作中提到】
: 这我同意,如果翻译不精准那用英文原文最好,比如motif。关键是很多词没必要用英
: 文,比如alignment,genome,reference,whole sequence,manual等等。lz的每个句
: 子基本都是中英混杂。我承认lz写的有价值,和我觉得lz用词可以更妥善些并不矛盾。
: 建议对我看法有异议的同学看看沈同的《生物化学》,什么复杂的英文词汇都有汉语译名,如果不确信精准,作者就把英文附上。国内牛人留洋的多了,没见几个中英混杂的。看看NIBS各老板的简介吧,随便摘几个:
: http://www.nibs.ac.cn/?act=view&id=72
: http://www.nibs.ac.cn/?act=view&id=70
: http://www.nibs.ac.cn/?act=view&id=67
: 一家之言,不要打击lz写作积极性。
: 有的人看来是实在什么都不懂,又想显示自己有学问,就挑刺,和菌斑老将没什么区别。microarray翻译成微阵列是最精准的翻译了,十几年前就在国内这么叫了。退一步说,就算我举的例子不是很恰当,但想法能被理解就够了。
: 这种每句中英混杂的帖子,放在其他版要被骂死,放在生物版却众星捧月,怪不?--不奇怪,因为做生物的虽然以为自己牛逼哄哄,让他上手个生物信息还真难,所以难得有人传授了经验,那当然是宝贝了。

e**s
发帖数: 513
78
Thank you very much! This is just what I want to learn now.

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

e****e
发帖数: 3450
79
楼主花这么多时间热心给大家敲字就不容易了,又不是发表论文.谁要觉得写得不够好可
以改写一下么,内容胜过形式

【在 A*****O 的大作中提到】
: 有点吹毛了...
: 一些必要的英文专业词汇,容易让人对应上,挺好的。
: 生物学上的microarry翻译成微阵列,还真是挺别扭的。
:
: 是最

y********a
发帖数: 138
80
agree,free packages from academia are much more flexible and suitable for
accuracy/methodology-driven bioinformatics folks.
For general folks who care only the most significant biology phenotypes, any
published tools should be fine. Be aware many simply treats seq data as
array data after some transformations, which may not be statistically robust.
From personal experiences,actually the quality control of data prior to any
of these tools is more critical to the end results.

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

相关主题
Can anybody recommend a good Illumina sequencing service?问个人基因组测序的问题
DNA密码的破译者-杨焕明和他的团队(zz)mRNA next gen Illumina 问题请教
Crowd SourcingRNA-seq结果分析求助
进入Biology版参与讨论
e****e
发帖数: 3450
81
对expression difference的分析,除了cuffdiff,DEseq,楼主还有什么别的好工具推荐
的么?
谢谢!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

d***y
发帖数: 8536
82
感谢,收藏了。
j*p
发帖数: 411
83
对expression difference的分析,除了cuffdiff,DEseq,楼主还有什么别的好工具推荐
的么?
SAMseq:"http://www-stat.stanford.edu/~tibs/SAM/"
l*****a
发帖数: 1431
84
想问个实验设计的问题。我们有一个病人和他父母的RNA,想比较一下RNA splicing,
因为病人在一个和RNA splicing 有关的gene上有个突变。做exome array的人说sample
不够,没法做statistics。就想问一下,如果做RNA seq 是不是可以回避统计的问题。
谢谢!
j*p
发帖数: 411
85
1. 理论上说,只要所研究的基因有足够的reads(最好是pair-end),那么,要确定
splicing isoforms应该不是很难的事情, 可以查询一下两个方法(我虽知道有,但都没
试过): "NSMAP: a method for spliced isoforms identification and
quantification from RNA-Seq", "SpliceTrap: a method to quantify alternative
splicing under single cellular conditions"
2. 假设,比较病人和他父母RNA splicing之后,发现有很多基因存在不同的splicing,这
并不能代表你所说的"和RNA splicing 有关的gene"上面的突变是引起这种疾病的原因,
甚至不能代表这个突变能够用来做为检测这种疾病的marker,因为sample不够.如果你说
的是这种"sample不够,没法做statistics", 那么我以为它不能通过RNA-seq来回避.

sample

【在 l*****a 的大作中提到】
: 想问个实验设计的问题。我们有一个病人和他父母的RNA,想比较一下RNA splicing,
: 因为病人在一个和RNA splicing 有关的gene上有个突变。做exome array的人说sample
: 不够,没法做statistics。就想问一下,如果做RNA seq 是不是可以回避统计的问题。
: 谢谢!

b***g
发帖数: 516
86
好贴,mark之!
l*****a
发帖数: 1431
87
第2点不是很理解。我们很肯定这个mutation就是造成这种病的原因。现在就想作一些
功能方面的研究。如果有RNA seq发现有isoform上的不同,肯定还会近一步验证。这样
的话也不行吗?

alternative
因,

【在 j*p 的大作中提到】
: 1. 理论上说,只要所研究的基因有足够的reads(最好是pair-end),那么,要确定
: splicing isoforms应该不是很难的事情, 可以查询一下两个方法(我虽知道有,但都没
: 试过): "NSMAP: a method for spliced isoforms identification and
: quantification from RNA-Seq", "SpliceTrap: a method to quantify alternative
: splicing under single cellular conditions"
: 2. 假设,比较病人和他父母RNA splicing之后,发现有很多基因存在不同的splicing,这
: 并不能代表你所说的"和RNA splicing 有关的gene"上面的突变是引起这种疾病的原因,
: 甚至不能代表这个突变能够用来做为检测这种疾病的marker,因为sample不够.如果你说
: 的是这种"sample不够,没法做statistics", 那么我以为它不能通过RNA-seq来回避.
:

h**********8
发帖数: 650
88
感谢科普贴!
请大家不要吹毛吹歪了楼。

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

h**********8
发帖数: 650
89
欢迎CELLER给翻译成全中文的
改完我给包子
大家做证
呵呵

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

j*p
发帖数: 411
90
我也不是很理解,你可以作功能方面的研究,你也可以说,由于这个病人有这个mutation,
改变了他很多gene splicing,从而使的这个病人患上这种疾病.我不觉得这样的story和
统计有什么关系.但是,人家会问,如果这个mutation是造成这种疾病的原因,那么在其他
患相同疾病的患者身上有没有这个mutation?又有多少其他的患者携带这个或者类似紊
乱splicing regulator 的mutation?这就和统计有关了,并且这两个问题显然不能通过
一个病例得到回答.RNA-seq只能帮助你确定gene splicing,并不能帮助你回答这两个问
题.

【在 l*****a 的大作中提到】
: 第2点不是很理解。我们很肯定这个mutation就是造成这种病的原因。现在就想作一些
: 功能方面的研究。如果有RNA seq发现有isoform上的不同,肯定还会近一步验证。这样
: 的话也不行吗?
:
: alternative
: 因,

相关主题
(ZT) 2008中国百篇最具影响国际论文(生物类)请教RNA-seq 软件的安装调试的问题!
求科普RNA-sequencingRNA-seq map工具
paper help!敬请推荐有关的mir论文给在下学习借鉴
进入Biology版参与讨论
Y**I
发帖数: 444
91
同学,你的翻译看着更累。
micoarray翻译成微矩阵,词不达意。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

t******r
发帖数: 209
92
作为一个两年经验的说两句
clc: best for 454 data assembling
各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput
c*********r
发帖数: 1312
93
de novo assembly呢?^_^

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

w**c
发帖数: 167
94
写的真好,受用了。只是这里“quantile normalization(就是除去两头,用中间的50%
做normalization)” 不是很准确吧,quantile normalization是一种将数据排序取均
值并奕原位置放回的方法。
n******7
发帖数: 12463
95
请问没钱的用什么aligner处理454好?而且需要spliced alignment?
tophat-bowtie 号称对长序列不好
bwa-sw 不能产生spliced alignment...

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

p***a
发帖数: 6202
96
zan
w****m
发帖数: 38
97
请问clc的SNP/INDEL CALLING怎么样啊?和OPEN SOURCE的比较而言。。
谢谢!

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

w****m
发帖数: 38
98
请问QUALITY CONTROL指的是READ TRIMMING/FILTERING吗?有什么好的软件推荐啊?
谢谢!

any
robust.
any

【在 y********a 的大作中提到】
: agree,free packages from academia are much more flexible and suitable for
: accuracy/methodology-driven bioinformatics folks.
: For general folks who care only the most significant biology phenotypes, any
: published tools should be fine. Be aware many simply treats seq data as
: array data after some transformations, which may not be statistically robust.
: From personal experiences,actually the quality control of data prior to any
: of these tools is more critical to the end results.
:
: pipeline

B*M
发帖数: 1418
99
galaxy 感觉使着不是很顺手.我可以用tophat拿到accepted hits和splice junctions.
然后我用cufflinks 就怎么也跑不出结果!.
在这之前,我还得把raw data groomer...
我还是用了一个小的sample.

【在 t******r 的大作中提到】
: 作为一个两年经验的说两句
: clc: best for 454 data assembling
: 各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput

B*M
发帖数: 1418
100
很喜欢这个帖子,希望可以继续热烈讨论,别把楼盖歪~~
我想提的是,如果自己是wet lab出身的,想开始学linux 编程,至少可以run bowtie,
tophat 之类的,有什么好的入门教材推荐吗?
还是就是bowtie, tophat只能在linux or mac 系统跑. windows我们在课上试过,中间
stuck,因为一个什么package 找不到...
相关主题
如何处理RNA-Seq含有indel的reads怎么比对?
问个SNP问题两个靠近的SNP的transmission是独立的吗?
请推荐几家提供 NextGen sequencing 的公司请教个DNA相关的实验问题
进入Biology版参与讨论
B*M
发帖数: 1418
101
co ask..

【在 w****m 的大作中提到】
: 请问clc的SNP/INDEL CALLING怎么样啊?和OPEN SOURCE的比较而言。。
: 谢谢!

B*M
发帖数: 1418
102
还有一个很好的论坛, http://seqanswers.com/
有时很快就从developer那得到答案
j*p
发帖数: 411
103
what do you mean by "然后我用cufflinks 就怎么也跑不出结果"?
cufflinks should be able to take output files directly from tophat. Also,
you may want to install the recent version of cufflinks, the developers made
significant improvement predicting transcripts, and allow the user to give
kind of reference transcriptome in .gtf format.

junctions.

【在 B*M 的大作中提到】
: galaxy 感觉使着不是很顺手.我可以用tophat拿到accepted hits和splice junctions.
: 然后我用cufflinks 就怎么也跑不出结果!.
: 在这之前,我还得把raw data groomer...
: 我还是用了一个小的sample.

B*M
发帖数: 1418
104
I mean the run will not finish, I got red cross...
I am running it through galaxy, I thought I don't need to install cufflinks
on my computer.
j*p
发帖数: 411
105
GenePattern probably has better RNA-seq pipelines. People who develops
Tophat and Scripture are both with Broad now.
f*******e
发帖数: 628
106
学到了,原来 microarray 是 微阵列,以后爹妈问起来在做什么可以这么讲。
另外,array 里面数据的 normalization 在我理解好像不是 标准化 的意思,至少用
标准化翻译不是很确切。不过也许中文里面约定俗成这么翻译?从前国内时候没学过。
对了,RNA 最好也翻译作核糖核酸,不然爹妈听不懂。这个从前在国内还是学到过的。

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

a****d
发帖数: 1919
107
H*******g
发帖数: 321
108
mark
l**********1
发帖数: 5204
109
>http://genome.ucsc.edu/goldenPath/help/customTrack.html)。UCSC 还support HTTP and FTP for tracks, usually if a file is greater than 300M, we will put it on Amazon cloud and give the link to UCSC, and we will see the track,and it’s actually very fas
Bingo
iCloud now into NGS mapping:
//www.ncbi.nlm.nih.gov/pubmed/21645377
//cloudaligner.sourceforge.net/

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

K******S
发帖数: 10109
110
why still keep RMA, RNA, TTEST SAM in your "all chinese" post?
apparently, microarry is way more easy to understand than 微阵列

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

相关主题
请教个DNA相关的实验问题DNA密码的破译者-杨焕明和他的团队(zz)
老美酸溜溜的Crowd Sourcing
Can anybody recommend a good Illumina sequencing service?问个人基因组测序的问题
进入Biology版参与讨论
s******a
发帖数: 252
111
THis is great. BTW, what hardware configuration do you use for your
computers?
Thanks!
n******7
发帖数: 12463
112
自己回答一下
就我的经验,gmap用来做454 sequence的alignment非常好
bowtie-tophat 有很多很奇怪的结果 后续用cufflink处理丢了很多exon

【在 n******7 的大作中提到】
: 请问没钱的用什么aligner处理454好?而且需要spliced alignment?
: tophat-bowtie 号称对长序列不好
: bwa-sw 不能产生spliced alignment...

l**********1
发帖数: 5204
113
>http://genome.ucsc.edu/goldenPath/help/customTrack.html)。UCSC 还support HTTP and FTP for tracks, usually if a file is greater than 300M, we will put it on Amazon cloud and give the link to UCSC, and we will see the track,and it’s actually very fas
Bingo
iCloud now into NGS mapping:
//www.ncbi.nlm.nih.gov/pubmed/21645377
//cloudaligner.sourceforge.net/

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

K******S
发帖数: 10109
114
why still keep RMA, RNA, TTEST SAM in your "all chinese" post?
apparently, microarry is way more easy to understand than 微阵列

是最

【在 c****r 的大作中提到】
: 东西看着不错,可是写作实在让人无语。你或者全用英文,或者都用汉语,这样每句都
: 中英夹杂真别扭。我就不相信你那些英文都没有汉语翻译。比如
: “总体来说,对RNA-seq的数据分析尚未被标准化,相对于对microarry的分析,即便是最
: 基本的call significant genes in RNA-seq依然处于发展阶段,在microarry,大家都
: 知道,有RMA normalization,数据被normalize 之后,可以用ttest,SAM等手段找
: significant genes,但是RNA-seq,单就normalization仍尚无定论。”
: 完全可以改成
: “总体来说,对RNA测序的数据分析尚未被标准化,相对于对微阵列的分析,即便是最
: 基本的RNA测序显著变化的基因(?)依然处于发展阶段,在微阵列,大家都
: 知道,有RMA 标准化,数据被标准化之后,可以用ttest,SAM等手段找

s******a
发帖数: 252
115
THis is great. BTW, what hardware configuration do you use for your
computers?
Thanks!
n******7
发帖数: 12463
116
自己回答一下
就我的经验,gmap用来做454 sequence的alignment非常好
bowtie-tophat 有很多很奇怪的结果 后续用cufflink处理丢了很多exon

【在 n******7 的大作中提到】
: 请问没钱的用什么aligner处理454好?而且需要spliced alignment?
: tophat-bowtie 号称对长序列不好
: bwa-sw 不能产生spliced alignment...

l**********1
发帖数: 5204
117
EN
alternatively you can try
//www-personal.umich.edu/~jianghui/rseq/
more please go to
//www.stanford.edu/group/wonglab/software.html

【在 j*p 的大作中提到】
: GenePattern probably has better RNA-seq pipelines. People who develops
: Tophat and Scripture are both with Broad now.

l**********1
发帖数: 5204
118
up........
plus
Integrative Missing Value Estimation for Microarray Data software:
//zhoulab.usc.edu/iMISS/

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

s*********e
发帖数: 11
119
回的迟了一点,现在velvet的性能提升了不少,如果用,下新版本的。缺点就是内存占
用比较大的,我做水稻de novo assembly using 512Gb mem仍然卡,abyss 也表现不错
,建议试一下。

_^

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

c***3
发帖数: 527
120
mark
相关主题
mRNA next gen Illumina 问题请教求科普RNA-sequencing
RNA-seq结果分析求助paper help!
(ZT) 2008中国百篇最具影响国际论文(生物类)请教RNA-seq 软件的安装调试的问题!
进入Biology版参与讨论
W***o
发帖数: 6519
121
很好,谢谢

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

p********6
发帖数: 1339
122
好文,收藏了。晚上有时间再来和您探讨。
c***m
发帖数: 75
123
牛,顶
l*****n
发帖数: 214
124
好问,收藏!
l********n
发帖数: 260
125
请JCP同学注明转载的原处,不要让别人误会

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c****y
发帖数: 373
126
个人感觉BGI的东西一般。
transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
。我现在都用1T的跑。
好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
知道结果如何,如果好的话真是穷人的原子弹呀。
如有兴趣合作分析,可站内信联系。

_^

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

t**********n
发帖数: 283
127
Thanks for sharing..

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

l**********1
发帖数: 5204
p**********t
发帖数: 2636
129
用trinity吧,有strand-specific pair-end reads最好
velvet是genome assembler
具体的可以去找benchmark的paper来看。

_^

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

T**N
发帖数: 129
130
大马克
相关主题
RNA-seq map工具问个SNP问题
敬请推荐有关的mir论文给在下学习借鉴请推荐几家提供 NextGen sequencing 的公司
如何处理RNA-Seq含有indel的reads怎么比对?
进入Biology版参与讨论
c*********r
发帖数: 1312
131
128G是指内存吗?那我只能用学校的cluster了。我的第一批数据是合作者用oasis分析
,结果不错。
现在要自己做了,有好多东西要学。。。

【在 c****y 的大作中提到】
: 个人感觉BGI的东西一般。
: transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
: denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
: 。我现在都用1T的跑。
: 好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
: 知道结果如何,如果好的话真是穷人的原子弹呀。
: 如有兴趣合作分析,可站内信联系。
:
: _^

c*********r
发帖数: 1312
132
多谢回复,benchmark的paper能再多给点信息吗?没找到。。。
不过trinity网站上的那篇nature protocol和RNA-Seq Workshop看着不错,有空要试一
下。

【在 p**********t 的大作中提到】
: 用trinity吧,有strand-specific pair-end reads最好
: velvet是genome assembler
: 具体的可以去找benchmark的paper来看。
:
: _^

x*****n
发帖数: 825
133
进来学习的。。。
w****w
发帖数: 521
134
http://genome.cshlp.org/content/22/3/549.abstract
...
We demonstrate the error correction and assembly performance of SGA on 1.2
billion sequence reads from a human genome, which we are able to assemble
using 54 GB of memory.

【在 c****y 的大作中提到】
: 个人感觉BGI的东西一般。
: transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
: denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
: 。我现在都用1T的跑。
: 好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
: 知道结果如何,如果好的话真是穷人的原子弹呀。
: 如有兴趣合作分析,可站内信联系。
:
: _^

p**********t
发帖数: 2636
135
这几个软件里面trinity是最User friendly的
我平时20M pair-end 20个G内存就够了,我的是植物的, 应该gene比海胆多
算了不用搜了,比较新的bench mark基本trinity是各方面比较好的。
老一点的benchmark说Oases-M好的都是没看Oases-M的misassembly是多么惨不忍睹

【在 c*********r 的大作中提到】
: 多谢回复,benchmark的paper能再多给点信息吗?没找到。。。
: 不过trinity网站上的那篇nature protocol和RNA-Seq Workshop看着不错,有空要试一
: 下。

c*********r
发帖数: 1312
136
那下次就用trinity了。多谢!

【在 p**********t 的大作中提到】
: 这几个软件里面trinity是最User friendly的
: 我平时20M pair-end 20个G内存就够了,我的是植物的, 应该gene比海胆多
: 算了不用搜了,比较新的bench mark基本trinity是各方面比较好的。
: 老一点的benchmark说Oases-M好的都是没看Oases-M的misassembly是多么惨不忍睹

c****y
发帖数: 373
137
sorry ya, 没有看过SGA的文章,信口开河了。

2

【在 w****w 的大作中提到】
: http://genome.cshlp.org/content/22/3/549.abstract
: ...
: We demonstrate the error correction and assembly performance of SGA on 1.2
: billion sequence reads from a human genome, which we are able to assemble
: using 54 GB of memory.

q****k
发帖数: 1023
138
Thanks!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

w*****y
发帖数: 1201
139
clc做一些de novo的RNA-seq assembly还可以,需要内存不是很大,大概16G的内存组
装50million的reads没有什么问题,大概几个小时,推荐至少32G内存。

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

b****r
发帖数: 17995
140
现在做这个的牛人真多,我只能羡慕了,没精力学了

【在 w*****y 的大作中提到】
: clc做一些de novo的RNA-seq assembly还可以,需要内存不是很大,大概16G的内存组
: 装50million的reads没有什么问题,大概几个小时,推荐至少32G内存。
:
: pipeline

相关主题
含有indel的reads怎么比对?老美酸溜溜的
两个靠近的SNP的transmission是独立的吗?Can anybody recommend a good Illumina sequencing service?
请教个DNA相关的实验问题DNA密码的破译者-杨焕明和他的团队(zz)
进入Biology版参与讨论
X*******8
发帖数: 3895
141
我让BGI做的。目前还不错。

【在 c*********r 的大作中提到】
: 我们领域做过的牛人也用过Trinity。听有经验的人都说de novo耗内存,Trinity说需
: 要1G RAM per 1M ~76 base Illumina paired reads。还好我做的transcriptome大概
: 12M 左右的reads,现在在准备装一个小型的工作站,先用16G 内存试一试看够不够。
: 有机会也去试试BGI的,BGI现在连着几期都在Nature上做广告了,知名度也在提升啊。
: 希望他家的东西也不错。^_^
:
: point.
: ,
: what
: and

z*********8
发帖数: 1203
142
推荐clc genomic workbench做rna seq,对于没有精力去学语言的人很合适,mapping
很快,但是mapping的算法不是大家听到的bowtie,bwa,soap,tophat etc,是他们自
己的算法,但是好处就是非常非常快啊!
而且他们做的页面也非常user friendly,mapping完了可以用R的package DESeq
calling differential expression。也可以用他们自带的,当然可能不如DESeq那么深
得人心。
不过这个软件要5000块一年,不是所有的lab都能买
T**********t
发帖数: 25
143
Thanks for sharing
W***o
发帖数: 6519
144
很好,谢谢

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

p********6
发帖数: 1339
145
好文,收藏了。晚上有时间再来和您探讨。
c***m
发帖数: 75
146
牛,顶
l*****n
发帖数: 214
147
好问,收藏!
l********n
发帖数: 260
148
请JCP同学注明转载的原处,不要让别人误会

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c****y
发帖数: 373
149
个人感觉BGI的东西一般。
transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
。我现在都用1T的跑。
好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
知道结果如何,如果好的话真是穷人的原子弹呀。
如有兴趣合作分析,可站内信联系。

_^

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

t**********n
发帖数: 283
150
Thanks for sharing..

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

相关主题
Crowd SourcingRNA-seq结果分析求助
问个人基因组测序的问题(ZT) 2008中国百篇最具影响国际论文(生物类)
mRNA next gen Illumina 问题请教求科普RNA-sequencing
进入Biology版参与讨论
l**********1
发帖数: 5204
p**********t
发帖数: 2636
152
用trinity吧,有strand-specific pair-end reads最好
velvet是genome assembler
具体的可以去找benchmark的paper来看。

_^

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

T**N
发帖数: 129
153
大马克
c*********r
发帖数: 1312
154
128G是指内存吗?那我只能用学校的cluster了。我的第一批数据是合作者用oasis分析
,结果不错。
现在要自己做了,有好多东西要学。。。

【在 c****y 的大作中提到】
: 个人感觉BGI的东西一般。
: transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
: denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
: 。我现在都用1T的跑。
: 好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
: 知道结果如何,如果好的话真是穷人的原子弹呀。
: 如有兴趣合作分析,可站内信联系。
:
: _^

c*********r
发帖数: 1312
155
多谢回复,benchmark的paper能再多给点信息吗?没找到。。。
不过trinity网站上的那篇nature protocol和RNA-Seq Workshop看着不错,有空要试一
下。

【在 p**********t 的大作中提到】
: 用trinity吧,有strand-specific pair-end reads最好
: velvet是genome assembler
: 具体的可以去找benchmark的paper来看。
:
: _^

x*****n
发帖数: 825
156
进来学习的。。。
w****w
发帖数: 521
157
http://genome.cshlp.org/content/22/3/549.abstract
...
We demonstrate the error correction and assembly performance of SGA on 1.2
billion sequence reads from a human genome, which we are able to assemble
using 54 GB of memory.

【在 c****y 的大作中提到】
: 个人感觉BGI的东西一般。
: transcriptome 的de novo assembly 可以试oasis, trinity,MIRA, IDBA-trans
: denovo的工具主要都要求大内存,特别是多个lib的情况。128G的机器基本上是低配了
: 。我现在都用1T的跑。
: 好象还有一个叫SGA的,号称省内存得很,5G内存就跑完human genome assembly,就不
: 知道结果如何,如果好的话真是穷人的原子弹呀。
: 如有兴趣合作分析,可站内信联系。
:
: _^

p**********t
发帖数: 2636
158
这几个软件里面trinity是最User friendly的
我平时20M pair-end 20个G内存就够了,我的是植物的, 应该gene比海胆多
算了不用搜了,比较新的bench mark基本trinity是各方面比较好的。
老一点的benchmark说Oases-M好的都是没看Oases-M的misassembly是多么惨不忍睹

【在 c*********r 的大作中提到】
: 多谢回复,benchmark的paper能再多给点信息吗?没找到。。。
: 不过trinity网站上的那篇nature protocol和RNA-Seq Workshop看着不错,有空要试一
: 下。

c*********r
发帖数: 1312
159
那下次就用trinity了。多谢!

【在 p**********t 的大作中提到】
: 这几个软件里面trinity是最User friendly的
: 我平时20M pair-end 20个G内存就够了,我的是植物的, 应该gene比海胆多
: 算了不用搜了,比较新的bench mark基本trinity是各方面比较好的。
: 老一点的benchmark说Oases-M好的都是没看Oases-M的misassembly是多么惨不忍睹

c****y
发帖数: 373
160
sorry ya, 没有看过SGA的文章,信口开河了。

2

【在 w****w 的大作中提到】
: http://genome.cshlp.org/content/22/3/549.abstract
: ...
: We demonstrate the error correction and assembly performance of SGA on 1.2
: billion sequence reads from a human genome, which we are able to assemble
: using 54 GB of memory.

相关主题
paper help!敬请推荐有关的mir论文给在下学习借鉴
请教RNA-seq 软件的安装调试的问题!如何处理RNA-Seq
RNA-seq map工具问个SNP问题
进入Biology版参与讨论
q****k
发帖数: 1023
161
Thanks!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

w*****y
发帖数: 1201
162
clc做一些de novo的RNA-seq assembly还可以,需要内存不是很大,大概16G的内存组
装50million的reads没有什么问题,大概几个小时,推荐至少32G内存。

pipeline

【在 j*p 的大作中提到】
: 1. 我没有用过clc genomics benchwork,故而不知其是否好用。
: 2. 我用过不少需要licence的software,总体感觉不如free(open source)的
: software来得好用,要钱的software flexibility远不如free sotware,故而我对那些
: 要钱的softwre有偏见,当然,也因为我比较穷。
: 3. 如果你想上手容易,可以尝试galaxy和genepattern,前者有很多DNA-seq pipeline
: ,还有非常好的tutorial,后者有很多RNA-seq pipeline。
: 4. 如果你们单位有licence,可以尝试partek 。

b****r
发帖数: 17995
163
现在做这个的牛人真多,我只能羡慕了,没精力学了

【在 w*****y 的大作中提到】
: clc做一些de novo的RNA-seq assembly还可以,需要内存不是很大,大概16G的内存组
: 装50million的reads没有什么问题,大概几个小时,推荐至少32G内存。
:
: pipeline

X*******8
发帖数: 3895
164
我让BGI做的。目前还不错。

【在 c*********r 的大作中提到】
: 我们领域做过的牛人也用过Trinity。听有经验的人都说de novo耗内存,Trinity说需
: 要1G RAM per 1M ~76 base Illumina paired reads。还好我做的transcriptome大概
: 12M 左右的reads,现在在准备装一个小型的工作站,先用16G 内存试一试看够不够。
: 有机会也去试试BGI的,BGI现在连着几期都在Nature上做广告了,知名度也在提升啊。
: 希望他家的东西也不错。^_^
:
: point.
: ,
: what
: and

z*********8
发帖数: 1203
165
推荐clc genomic workbench做rna seq,对于没有精力去学语言的人很合适,mapping
很快,但是mapping的算法不是大家听到的bowtie,bwa,soap,tophat etc,是他们自
己的算法,但是好处就是非常非常快啊!
而且他们做的页面也非常user friendly,mapping完了可以用R的package DESeq
calling differential expression。也可以用他们自带的,当然可能不如DESeq那么深
得人心。
不过这个软件要5000块一年,不是所有的lab都能买
T**********t
发帖数: 25
166
Thanks for sharing
l**********1
发帖数: 5204
167
It is CS PhD and Biostatistic MD/PhD schlors both their duties, not wet bio/
medi MD/PhD's works.
pls check,
http://www.cs.helsinki.fi/u/vmakinen/
or
DAlign Computes the unit cost edit distance between a haploid and a
reference guided recombination of two diploids.
Maximal Unique Matches computed with a bidirectional BWT-index.
Traph. A software for RNA transcript expression prediction from RNA-
sequencing data. See RECOMB-seq and WABI 2013 papers below.
Normalized N50 calculator. A tool to extract correctly aligning parts of (
scaffold) assemblies and compute the resulting normalized N50. After
publishing we noticed that GAGE also has similar tool to compute corrected
N50. The strategy to extract correct alignments is different in these two,
but on real data they seem to obtain similar results.
geneneralized compressed suffix array for indexing multiple alignment of
several reference genomes or reference genome plus known variants.
all-against-all suffix/prefix alignment for creating overlap graphs for de
novo fragment assembly from short reads. Allows approximate overlaps and
works in small space.
readaligner for mapping (short) DNA reads into reference sequences. This is
not as fast as some other Burrows-Wheeler-based aligners, but implements
faithfully k-mismatches and k-errors search where some other tools may solve
a slighly different or implicitly defined problem.
http://www.cs.helsinki.fi/en/gsa/
or
http://www.stanford.edu/group/wonglab/people.html
http://www.stanford.edu/group/wonglab/software.html

【在 b****r 的大作中提到】
: 现在做这个的牛人真多,我只能羡慕了,没精力学了
j*p
发帖数: 411
168
jcp原创,非转载

【在 l********n 的大作中提到】
: 请JCP同学注明转载的原处,不要让别人误会
l**********1
发帖数: 5204
169
It is CS PhD and Biostatistic MD/PhD schlors both their duties, not wet bio/
medi MD/PhD's works.
pls check,
http://www.cs.helsinki.fi/u/vmakinen/
or
DAlign Computes the unit cost edit distance between a haploid and a
reference guided recombination of two diploids.
Maximal Unique Matches computed with a bidirectional BWT-index.
Traph. A software for RNA transcript expression prediction from RNA-
sequencing data. See RECOMB-seq and WABI 2013 papers below.
Normalized N50 calculator. A tool to extract correctly aligning parts of (
scaffold) assemblies and compute the resulting normalized N50. After
publishing we noticed that GAGE also has similar tool to compute corrected
N50. The strategy to extract correct alignments is different in these two,
but on real data they seem to obtain similar results.
geneneralized compressed suffix array for indexing multiple alignment of
several reference genomes or reference genome plus known variants.
all-against-all suffix/prefix alignment for creating overlap graphs for de
novo fragment assembly from short reads. Allows approximate overlaps and
works in small space.
readaligner for mapping (short) DNA reads into reference sequences. This is
not as fast as some other Burrows-Wheeler-based aligners, but implements
faithfully k-mismatches and k-errors search where some other tools may solve
a slighly different or implicitly defined problem.
http://www.cs.helsinki.fi/en/gsa/
or
http://www.stanford.edu/group/wonglab/people.html
http://www.stanford.edu/group/wonglab/software.html

【在 b****r 的大作中提到】
: 现在做这个的牛人真多,我只能羡慕了,没精力学了
j*p
发帖数: 411
170
jcp原创,非转载

【在 l********n 的大作中提到】
: 请JCP同学注明转载的原处,不要让别人误会
相关主题
问个SNP问题两个靠近的SNP的transmission是独立的吗?
请推荐几家提供 NextGen sequencing 的公司请教个DNA相关的实验问题
含有indel的reads怎么比对?老美酸溜溜的
进入Biology版参与讨论
i***r
发帖数: 1035
171
此贴乃我入门贴,刚好在我转bioinformatics的时候。
多谢

【在 j*p 的大作中提到】
: jcp原创,非转载
x*****d
发帖数: 704
172

_^
推荐Trinity,作者写了一个protocol。从de novo assembly到ORF预测,还有
differential expression,都有。http://www.nature.com/nprot/journal/v8/n8/full/nprot.2013.084.html

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

l********n
发帖数: 260
173
为什么一定要我揭穿你的把戏呢
这个文章是我认识的一个人写的, 不是你!!!!

【在 j*p 的大作中提到】
: jcp原创,非转载
c*********r
发帖数: 1312
174
多谢!

【在 x*****d 的大作中提到】
:
: _^
: 推荐Trinity,作者写了一个protocol。从de novo assembly到ORF预测,还有
: differential expression,都有。http://www.nature.com/nprot/journal/v8/n8/full/nprot.2013.084.html

s****t
发帖数: 20
175
进来学习
J********3
发帖数: 3151
176
jcp为啥就不能是你认识的人?

【在 l********n 的大作中提到】
: 为什么一定要我揭穿你的把戏呢
: 这个文章是我认识的一个人写的, 不是你!!!!

s****1
发帖数: 1519
177
:现在比较流行的有Illumina highseq 2000,和Roche 454
从这句话来看,这篇文章存在有一段时间了。现在454应该没那么流行了,Roche都结束
项目了,原454的人很多跳槽ion torrent。
c****2
发帖数: 318
178
Thx

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

j*p
发帖数: 411
179
1.再次重申是我原创,不解释!当年,不说构思,码字都码了半天
2.我不认识liujiatian,但欢迎你来揭发,建议你问问你“认识的那个人”先,赶紧的!
3.为了闹下去而闹下去,没什么意思,要自重!此后我jcp不再回复此类争议
4.最近有些新的心得,重新看着自己几年前的文章,觉得有很多值得改进的地方,抽
空写一写

【在 J********3 的大作中提到】
: jcp为啥就不能是你认识的人?
i***r
发帖数: 1035
180
我开了个bioinformatics的俱乐部,愿意独家购买版权啊。15个包子如何?

的!

【在 j*p 的大作中提到】
: 1.再次重申是我原创,不解释!当年,不说构思,码字都码了半天
: 2.我不认识liujiatian,但欢迎你来揭发,建议你问问你“认识的那个人”先,赶紧的!
: 3.为了闹下去而闹下去,没什么意思,要自重!此后我jcp不再回复此类争议
: 4.最近有些新的心得,重新看着自己几年前的文章,觉得有很多值得改进的地方,抽
: 空写一写

相关主题
Can anybody recommend a good Illumina sequencing service?问个人基因组测序的问题
DNA密码的破译者-杨焕明和他的团队(zz)mRNA next gen Illumina 问题请教
Crowd SourcingRNA-seq结果分析求助
进入Biology版参与讨论
a****c
发帖数: 339
181
看发文时间。。。

【在 s****1 的大作中提到】
: :现在比较流行的有Illumina highseq 2000,和Roche 454
: 从这句话来看,这篇文章存在有一段时间了。现在454应该没那么流行了,Roche都结束
: 项目了,原454的人很多跳槽ion torrent。

N******n
发帖数: 3003
182
写的很好,我也打算写一个相关的,就是没有来得及动笔。
D*S
发帖数: 161
183
好文mark!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c*********r
发帖数: 1312
184
这个帖子又被挖出来了!说明NGS分析还是很有需求啊!
暑假去了Titus Brown组织的MSU NGS summer course,收获很大。其中最有用的是,课
上所有资料都全部公开并且有详细的记录!有点Shell基础的,可以(比较)轻松的重
复任何一个课上的任何一个pipeline。
链接在此:
http://angus.readthedocs.org/en/2014/
欢迎交流。
r******0
发帖数: 357
185
very good!
i***r
发帖数: 1035
186
此贴乃我入门贴,刚好在我转bioinformatics的时候。
多谢

【在 j*p 的大作中提到】
: jcp原创,非转载
x*****d
发帖数: 704
187

_^
推荐Trinity,作者写了一个protocol。从de novo assembly到ORF预测,还有
differential expression,都有。http://www.nature.com/nprot/journal/v8/n8/full/nprot.2013.084.html

【在 c*********r 的大作中提到】
: 我想分析一些RNA-seq的东东,尤其是de novo assembly的分析,因为我们这个模式生
: 物(海胆)的基因组说实话不是很完善,虽然改进了不少,但是自己感兴趣的一些基因
: 的拼接都有些问题,希望能从de novo assembly中获得些正确的信息。
: 那我下次试试galaxy或者genepattern。那么velvet怎么样?好像也有好多人在用。^_^
: 最爱经验交流贴了。^_^
:
: pipeline

l********n
发帖数: 260
188
为什么一定要我揭穿你的把戏呢
这个文章是我认识的一个人写的, 不是你!!!!

【在 j*p 的大作中提到】
: jcp原创,非转载
c*********r
发帖数: 1312
189
多谢!

【在 x*****d 的大作中提到】
:
: _^
: 推荐Trinity,作者写了一个protocol。从de novo assembly到ORF预测,还有
: differential expression,都有。http://www.nature.com/nprot/journal/v8/n8/full/nprot.2013.084.html

s****t
发帖数: 20
190
进来学习
相关主题
(ZT) 2008中国百篇最具影响国际论文(生物类)请教RNA-seq 软件的安装调试的问题!
求科普RNA-sequencingRNA-seq map工具
paper help!敬请推荐有关的mir论文给在下学习借鉴
进入Biology版参与讨论
J********3
发帖数: 3151
191
jcp为啥就不能是你认识的人?

【在 l********n 的大作中提到】
: 为什么一定要我揭穿你的把戏呢
: 这个文章是我认识的一个人写的, 不是你!!!!

s****1
发帖数: 1519
192
:现在比较流行的有Illumina highseq 2000,和Roche 454
从这句话来看,这篇文章存在有一段时间了。现在454应该没那么流行了,Roche都结束
项目了,原454的人很多跳槽ion torrent。
c****2
发帖数: 318
193
Thx

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

j*p
发帖数: 411
194
1.再次重申是我原创,不解释!当年,不说构思,码字都码了半天
2.我不认识liujiatian,但欢迎你来揭发,建议你问问你“认识的那个人”先,赶紧的!
3.为了闹下去而闹下去,没什么意思,要自重!此后我jcp不再回复此类争议
4.最近有些新的心得,重新看着自己几年前的文章,觉得有很多值得改进的地方,抽
空写一写

【在 J********3 的大作中提到】
: jcp为啥就不能是你认识的人?
i***r
发帖数: 1035
195
我开了个bioinformatics的俱乐部,愿意独家购买版权啊。15个包子如何?

的!

【在 j*p 的大作中提到】
: 1.再次重申是我原创,不解释!当年,不说构思,码字都码了半天
: 2.我不认识liujiatian,但欢迎你来揭发,建议你问问你“认识的那个人”先,赶紧的!
: 3.为了闹下去而闹下去,没什么意思,要自重!此后我jcp不再回复此类争议
: 4.最近有些新的心得,重新看着自己几年前的文章,觉得有很多值得改进的地方,抽
: 空写一写

a****c
发帖数: 339
196
看发文时间。。。

【在 s****1 的大作中提到】
: :现在比较流行的有Illumina highseq 2000,和Roche 454
: 从这句话来看,这篇文章存在有一段时间了。现在454应该没那么流行了,Roche都结束
: 项目了,原454的人很多跳槽ion torrent。

N******n
发帖数: 3003
197
写的很好,我也打算写一个相关的,就是没有来得及动笔。
D*S
发帖数: 161
198
好文mark!

【在 j*p 的大作中提到】
: 本人在wet lab里面做纯数据分析,for NGS data analysis, 简单介绍一些自己接触过
: ,并且觉得挺有用的工具,说的有点杂,权作抛砖引玉,还请不吝赐教。
: Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
: 被越来越广泛应用。不管你信不信,反正我信了。一是基于实验成本的降低($1k
: whole-genome sequencing is coming),越来越多的实验室可以操作;二是可以提供
: 相对low throughput experiment多的多的数据和信息,可以看到很多从前看不到的东
: 西;三是sequencer本身对测序的准确性正在逐渐提高,所以实验固有错误率降低;四
: 是各种算法的成熟应用,这使得很多由于实验产生的误差在出数据后通过对数据的分析
: 得以过滤。按照library preparation来分,NGS主要有DNA-seq和RNA-seq
: DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA

c*********r
发帖数: 1312
199
这个帖子又被挖出来了!说明NGS分析还是很有需求啊!
暑假去了Titus Brown组织的MSU NGS summer course,收获很大。其中最有用的是,课
上所有资料都全部公开并且有详细的记录!有点Shell基础的,可以(比较)轻松的重
复任何一个课上的任何一个pipeline。
链接在此:
http://angus.readthedocs.org/en/2014/
欢迎交流。
r******0
发帖数: 357
200
very good!
相关主题
如何处理RNA-Seq含有indel的reads怎么比对?
问个SNP问题两个靠近的SNP的transmission是独立的吗?
请推荐几家提供 NextGen sequencing 的公司请教个DNA相关的实验问题
进入Biology版参与讨论
N******n
发帖数: 3003
201
re
n******7
发帖数: 12463
202
可惜测序价格这几年都没大的变化
s******s
发帖数: 13035
203
我k,变化大了。hiseq-X出来以后,测序成本第二次突飞猛退。
你要看那张更新版本的和莫尔law对比的图就知道了。

【在 n******7 的大作中提到】
: 可惜测序价格这几年都没大的变化
m***T
发帖数: 11058
204
hiseq-X对于临床的意义不太大,至少现在。目前在临床上基本上是panel based的test
,连whole exome的都非常少,不过前些日子atena刚宣布有条件支持whole exome,所
以可能会加速它进入临床的速度

【在 s******s 的大作中提到】
: 我k,变化大了。hiseq-X出来以后,测序成本第二次突飞猛退。
: 你要看那张更新版本的和莫尔law对比的图就知道了。

m***T
发帖数: 11058
205
msu的课程据说相当不错,我都想去听听,可惜公司肯定不给报

【在 c*********r 的大作中提到】
: 这个帖子又被挖出来了!说明NGS分析还是很有需求啊!
: 暑假去了Titus Brown组织的MSU NGS summer course,收获很大。其中最有用的是,课
: 上所有资料都全部公开并且有详细的记录!有点Shell基础的,可以(比较)轻松的重
: 复任何一个课上的任何一个pipeline。
: 链接在此:
: http://angus.readthedocs.org/en/2014/
: 欢迎交流。

m***T
发帖数: 11058
206
我晕,居然是n年前的贴子
n******7
发帖数: 12463
207
恩,hiseq X ten是比较便宜
但是其他的机器变化不大
illumina的政策hiseq X ten只用来做WGS
所以要做其他的seq,比如bisulfite seq,就还是很贵

【在 s******s 的大作中提到】
: 我k,变化大了。hiseq-X出来以后,测序成本第二次突飞猛退。
: 你要看那张更新版本的和莫尔law对比的图就知道了。

s******s
发帖数: 13035
208
这个我看主要是FDA的问题。
现在ngs除了少数特例,没法成为诊断;另一方面,医生不懂也不想了解这么多信息,
只愿意知道少数clinical actionable的位点,所以panel大行其道。其实,现在
clinical
trial,很多都是上WXS了
只要FDA能批,自然一大堆公司会上,搞定医生的需求也容易了。

test

【在 m***T 的大作中提到】
: hiseq-X对于临床的意义不太大,至少现在。目前在临床上基本上是panel based的test
: ,连whole exome的都非常少,不过前些日子atena刚宣布有条件支持whole exome,所
: 以可能会加速它进入临床的速度

y*******1
发帖数: 164
209
赞,能花时间写出来,跟大家讨论,就需要顶一下。
现在这些前期的分析方法基本上都是这个套路。主要是后期deep data mining还是有很
多方面需要进一步开发的。
1 (共1页)
进入Biology版参与讨论
相关主题
paper help!两个靠近的SNP的transmission是独立的吗?
请教RNA-seq 软件的安装调试的问题!请教个DNA相关的实验问题
RNA-seq map工具老美酸溜溜的
敬请推荐有关的mir论文给在下学习借鉴Can anybody recommend a good Illumina sequencing service?
如何处理RNA-SeqDNA密码的破译者-杨焕明和他的团队(zz)
问个SNP问题Crowd Sourcing
请推荐几家提供 NextGen sequencing 的公司问个人基因组测序的问题
含有indel的reads怎么比对?mRNA next gen Illumina 问题请教
相关话题的讨论汇总
话题: rna话题: seq话题: reads话题: dna话题: ucsc