r******f 发帖数: 987 | 1 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
学什么软件呢?
听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。 |
M*P 发帖数: 6456 | 2 接触有什么用?公司已经做好了。
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
x***u 发帖数: 297 | 3 如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据
分析结果的理解,可以从broad institute 的 "best practice" 看起。
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
f*****n 发帖数: 499 | 4 做一回雷锋
如果你想从raw fastq data到结果,大概两个步骤:
1. raw fastq--bwa--mutation/gene expression
主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
来submit job,学会tune BWA/GATK的参数,是很容易的。
1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西,但是粗糙的东西
,不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq,你tophat之类的得到一堆基因的expression pattern,这时候你
需要画heatmap吧?correlation map吧?就是看看哪些基因表达降低了之类的
2a. 这时候就到了你所说的python了,这里对编程的要求就比前面高了,你需要学基础
的python或者R来画图
2b. 但这时候你面对的数据量(也就是提取出来的feature)要小很多,比如就
5000X5000行这种,不像前面的三亿行
2c. 因为要自己coding,所以python的基础什么syntax,pandas还是要稍微理解一点
其实都不难,只要用心
但需要不少积累,给你一下子灌输这么多脑子会大,如果过去没有计算机数学基础
不过当你喜欢做这个之后,鬼才做实验呢,都转data analyst了
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
f*****n 发帖数: 499 | 5 基本上是培养出来一个,走一个
您是说培养出一个做计算的,就都跳槽转行去做data的了?
lol
【在 x***u 的大作中提到】 : 如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据 : 分析结果的理解,可以从broad institute 的 "best practice" 看起。
|
s******s 发帖数: 13035 | 6 如果是RNA的话,现在有很多很方便的软件可以用。
可以拿这些上手啊,有些连mapping步骤都不用了。
不过一般linux得比较熟练,会点bash/perl/python。
再傻瓜的也可以用用galaxy嘛
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
r******f 发帖数: 987 | 7 太感激了,真不愧是大侠啊,多谢指点,我慢慢学起来。
HPCC
【在 f*****n 的大作中提到】 : 做一回雷锋 : 如果你想从raw fastq data到结果,大概两个步骤: : 1. raw fastq--bwa--mutation/gene expression : 主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你 : 的目标是找variants那就用GATK这样的主流软件 : 1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC : 来submit job,学会tune BWA/GATK的参数,是很容易的。 : 1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组 : 需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。 : 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
|
r******f 发帖数: 987 | 8 我去看看best practice,也多谢指点啊。
【在 x***u 的大作中提到】 : 如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据 : 分析结果的理解,可以从broad institute 的 "best practice" 看起。
|
a******r 发帖数: 786 | |
r******f 发帖数: 987 | 10 谢谢啦,我加紧学!
【在 a******r 的大作中提到】 : 用galaxy 吧, : 上手比较块
|
|
|
s******s 发帖数: 13035 | 11 全不懂的,还是从有UI的东西学起吧。比如Galaxy, DNA Nexus, 7-bridges,
Firecloud,
后面三个记得以前都有free credit,先跑几个练练手。
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
E*******e 发帖数: 4 | 12 既然都找公司了,分析的工作交给公司好了。作为客户,我觉得有两点,一是理解数据
格式,比如BAM、BED;二是学会用IGV,可以用来读取并可视化BAM、BED、TDF、
Bedgraph等多种数据,也可以加载一些公共数据(如ENCODE),这样你就可以结合公司
的报告对这些报告产生的数据基础有个直观的认识。
【在 r******f 的大作中提到】 : 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就 : 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要 : 学什么软件呢? : 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件, : 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
|
s*********y 发帖数: 1189 | |
I******i 发帖数: 203 | 14 从哪里可以下载一个sample raw data? 我想学习一下这些软件 |
w******a 发帖数: 1527 | 15 感谢活雷锋。
HPCC
【在 f*****n 的大作中提到】 : 做一回雷锋 : 如果你想从raw fastq data到结果,大概两个步骤: : 1. raw fastq--bwa--mutation/gene expression : 主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你 : 的目标是找variants那就用GATK这样的主流软件 : 1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC : 来submit job,学会tune BWA/GATK的参数,是很容易的。 : 1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组 : 需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。 : 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
|