下一代技术测序分析结果需要会什么软件技术？ - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 下一代技术测序分析结果需要会什么软件技术？

相关主题
● NGS(GATK) vs Sanger results	● 该转到computational bio领域吗
● 问个whole exome capture之后出来的data要怎么分析	● 新手请教CNV caller
● 请教Bioinformatics职业规划~~~	● Bioinformatics招人提供refer
● 版上有谁用过或知道Knome这个公司吗?	● 制药公司招生物信息Senior Information Scientist
● bioinformatics吐下槽	● Heng Li长得就像个天才码农啊
● bioinformatics postdoc poition($35,000 - $40,000)	● 【包子求助】call SNPs 有哪些工具？？
● 贡献一个SNP/Indel calling pipeline	● 高年级PhD毕业求建议
● 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？	● illumina测序数据分析

相关话题的讨论汇总
话题: 测序话题: python话题: bwa话题: 数据分析话题: 需要

进入Biology版参与讨论

(共1页)

r******f
发帖数: 987

我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
学什么软件呢？
听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

M*P
发帖数: 6456

接触有什么用？公司已经做好了。

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

x***u
发帖数: 297

如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
分析结果的理解，可以从broad institute 的 "best practice" 看起。

【在 r******f 的大作中提到】

f*****n
发帖数: 499

做一回雷锋
如果你想从raw fastq data到结果，大概两个步骤：
1. raw fastq--bwa--mutation/gene expression
主要是read mapping，把GB level的原始数据BWA mapping得到bam file，然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说，这个步骤里你主要需要学会linux environment，bash，学会用HPCC
来submit job，学会tune BWA/GATK的参数，是很容易的。
1b. 同时你要学会面对big data，都是比如300 million行的数据，处理一个全基因组
需要1TB空间，这个是很可怕的。大数据的storage，transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西，但是粗糙的东西
，不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq，你tophat之类的得到一堆基因的expression pattern，这时候你
需要画heatmap吧？correlation map吧？就是看看哪些基因表达降低了之类的
2a. 这时候就到了你所说的python了，这里对编程的要求就比前面高了，你需要学基础
的python或者R来画图
2b. 但这时候你面对的数据量（也就是提取出来的feature）要小很多，比如就
5000X5000行这种，不像前面的三亿行
2c. 因为要自己coding，所以python的基础什么syntax，pandas还是要稍微理解一点
其实都不难，只要用心
但需要不少积累，给你一下子灌输这么多脑子会大，如果过去没有计算机数学基础
不过当你喜欢做这个之后，鬼才做实验呢，都转data analyst了

【在 r******f 的大作中提到】

f*****n
发帖数: 499

基本上是培养出来一个，走一个
您是说培养出一个做计算的，就都跳槽转行去做data的了？
lol

【在 x***u 的大作中提到】

: 如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
: 分析结果的理解，可以从broad institute 的 "best practice" 看起。

s******s
发帖数: 13035

如果是RNA的话，现在有很多很方便的软件可以用。
可以拿这些上手啊，有些连mapping步骤都不用了。
不过一般linux得比较熟练，会点bash／perl／python。
再傻瓜的也可以用用galaxy嘛

【在 r******f 的大作中提到】

r******f
发帖数: 987

太感激了，真不愧是大侠啊，多谢指点，我慢慢学起来。

HPCC

【在 f*****n 的大作中提到】

: 做一回雷锋
: 如果你想从raw fastq data到结果，大概两个步骤：
: 1. raw fastq--bwa--mutation/gene expression
: 主要是read mapping，把GB level的原始数据BWA mapping得到bam file，然后如果你
: 的目标是找variants那就用GATK这样的主流软件
: 1a. 对于你来说，这个步骤里你主要需要学会linux environment，bash，学会用HPCC
: 来submit job，学会tune BWA/GATK的参数，是很容易的。
: 1b. 同时你要学会面对big data，都是比如300 million行的数据，处理一个全基因组
: 需要1TB空间，这个是很可怕的。大数据的storage，transfer都要注意。
: 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care

r******f
发帖数: 987

我去看看best practice，也多谢指点啊。

【在 x***u 的大作中提到】

: 如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
: 分析结果的理解，可以从broad institute 的 "best practice" 看起。

a******r
发帖数: 786

用galaxy 吧，
上手比较块

r******f
发帖数: 987

谢谢啦，我加紧学！

【在 a******r 的大作中提到】

: 用galaxy 吧，
: 上手比较块

相关主题
● bioinformatics postdoc poition($35,000 - $40,000)	● 该转到computational bio领域吗
● 贡献一个SNP/Indel calling pipeline	● 新手请教CNV caller
● 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？	● Bioinformatics招人提供refer
进入Biology版参与讨论

s******s
发帖数: 13035

全不懂的，还是从有UI的东西学起吧。比如Galaxy, DNA Nexus, 7-bridges,
Firecloud,
后面三个记得以前都有free credit，先跑几个练练手。

【在 r******f 的大作中提到】

E*******e
发帖数: 4

既然都找公司了，分析的工作交给公司好了。作为客户，我觉得有两点，一是理解数据
格式，比如BAM、BED；二是学会用IGV，可以用来读取并可视化BAM、BED、TDF、
Bedgraph等多种数据，也可以加载一些公共数据（如ENCODE），这样你就可以结合公司
的报告对这些报告产生的数据基础有个直观的认识。

【在 r******f 的大作中提到】

s*********y
发帖数: 1189

thank you

I******i
发帖数: 203

从哪里可以下载一个sample raw data？我想学习一下这些软件

w******a
发帖数: 1527

感谢活雷锋。

HPCC

【在 f*****n 的大作中提到】

(共1页)

进入Biology版参与讨论

相关主题
● illumina测序数据分析	● bioinformatics吐下槽
● 现在测序哪家强？能不能找蓝翔啊	● bioinformatics postdoc poition($35,000 - $40,000)
● 问个人基因组测序的问题	● 贡献一个SNP/Indel calling pipeline
● 这个值得关注吗？Brain Activity Map	● 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？
● NGS(GATK) vs Sanger results	● 该转到computational bio领域吗
● 问个whole exome capture之后出来的data要怎么分析	● 新手请教CNV caller
● 请教Bioinformatics职业规划~~~	● Bioinformatics招人提供refer
● 版上有谁用过或知道Knome这个公司吗?	● 制药公司招生物信息Senior Information Scientist

相关话题的讨论汇总
话题: 测序话题: python话题: bwa话题: 数据分析话题: 需要

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天