由买买提看人间百态

topics

全部话题 - 话题: gatk
首页 上页 1 2 (共2页)
W***o
发帖数: 6519
1
来自主题: Biology版 - Variant Calling 的结果分析
用gatk分析癌症病人的平行样品,最后出来的VCF,我想请教一下有经验的同学。
你们用什么样的threshold过滤这些数据?比如至少多少个ref,多少个alt才可以确定
genotype?
a***e
发帖数: 1010
2
来自主题: Biology版 - NGS数据分析的流程
your sample --> company --> FQ or FA file
--> blat or bowtie or Tophat to align --> (.sam, .bam file)
--> Samtools or GATK to call variants --> .vcf file (excel file)
--> igvtools or genome browser to visualize
or it is said u can use CLC to replace the last three steps.
v***r
发帖数: 1046
3
来自主题: Biology版 - NGS数据分析的流程
就是说公司给的是aligned好的bam文件,接下来不就是用samtools, GATK做snp
calling吗?为什么不是很容易搞定呢?难点在哪?
r*****q
发帖数: 216
4
这个确实是我的失误 不过还好 现在在这里知道了clc
PS 请问 您是base在美国吗? 在这边的bioinformatic 相关的conference里好像没怎
么看到过这个clc 公司来做推广。 不过软件确实做的不错。 而且在google scholar里
面search了一下 也确实有很多的citations. 这里没什么人用Partek or Bina啥的?
我的impression是 做rna-seq 都是用 bowtie tophat 啥的 到处都在宣传 感觉是公认
的。 variant call的话 就是gatk 使用商业的aligner的话 我以前的感觉是不被大众
所接受。这点可能是我自己的错误观点
IPA确实是一个非常好的例子 算法的话 做统计分析的人都不看不起 但是我自己觉得
IPA厉害的地方就是 他们的database up to date的annotation 这个很重要 没有这个
做出来的analysis都没用。所以大家也都在用IPA。 而且大部分的好的annotaoin 和
pathway的 database 现在都商业化了。 我觉得可能是因为... 阅读全帖
s****l
发帖数: 10462
5
来自主题: Biology版 - 急问:需要多少内存
Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample,需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
s******y
发帖数: 17729
6
来自主题: Biology版 - Bioinformatics招人 提供refer
能说下大致薪水范围不?
网页上说了一堆就是没提薪水
Bioinformatics Analysis Engineer
Description
We have openings for skilled and experienced bioinformaticians who have expe
rience with Next-Generation Sequencing (NGS). These individuals will help de
sign, develop, optimize and characterize new clinical assays at Invitae. Suc
cessful candidates will join a growing team that is building robust infrastr
ucture, custom sophisticated algorithms and scalable analysis capabilities f
or clinical genetics. We use agile design an... 阅读全帖
l********e
发帖数: 415
7
来自主题: Biology版 - NGS(GATK) vs Sanger results
NGS has a much higher error rate. This is just a sequencing error, I think.
Trust the sanger result.
s******r
发帖数: 1245
8
来自主题: Biology版 - NGS(GATK) vs Sanger results
看一下vcf里每个位点的depth和quality score多少,可能太低默认扔掉了
sanger是怎么做的?光看peak overlap不能知道percentage,要准的话得做subcloning
然后测几十个克隆

2)
soft
M***7
发帖数: 2420
9
这个不错,http://wiki.bits.vib.be/index.php/Hands-on_introduction_to_NGS_variant_analysis#Not_covered_during_this_training
有点长,不过很容易上手,适合新手。
或者broad institute的GATK best practice,搞台机器,工具装一遍,test data跑
两个,基本就心里有数了
r**********e
发帖数: 587
10
从来就只用现成的package (alignment, GATK, haplotype, WGS, exome, RNA-seq,
structural variation)
会一些python perl R,但都是皮毛
完全没做过统计分析
我的工作主要就是寻找 genetic variation....
这也是为什么我觉得自己bioinformatics其实很弱。。
r**********e
发帖数: 587
11
PhD临近毕业。老板MD,主要做disease genetics,PhD前半部分是纯bioinformatics,
寻找疾病mutation或者risk lock;后半部分就是研究这些位点的功能,做了很多实验
分子细胞RNA等等基础研究(已后悔)。好处是啥都懂一些,坏处是不精通。
技能方面,不会自己写package,从来就只用现成的package (alignment, GATK,
haplotype, WGS, exome, RNA-seq,
structural variation),会一些python perl R,但都是皮毛,完全没做过统计分析
bioinformatics方面我的工作主要就是寻找 genetic variation....这也是为什么我觉
得自己bioinformatics其实很弱。。
未来的事业方向我非常非常清楚和坚定,就是clinical genetics,只想做临床or疾病
的基因组分析,坚决不做基础生物研究。但有个选择问题是继续一半实验+一半生物信
息的模式,还是下定决心彻底做生物信息
1. 一半实验+一半生物信息:还是对有实际应用价值的医学基因组学很... 阅读全帖
r**********e
发帖数: 587
12
从来就只用现成的package (alignment, GATK, haplotype, WGS, exome, RNA-seq,
structural variation)
会一些python perl R,但都是皮毛
完全没做过统计分析
我的工作主要就是寻找 genetic variation....
这也是为什么我觉得自己bioinformatics其实很弱。。
r**********e
发帖数: 587
13
来自主题: Biology版 - 请教染色体易位
说下我的comments吧
DELLY其实是比较新的软件,综合了paired-end discordant和split-read两种signal来
make calls,自然是不错的,而且也是1000genome使用的软件之一,而且最后结果提供
vcf format
SV领域最早最原始的三个软件,我个人认为的,read-depth的CNVnator;discordant的
breakdancer;以及split-read的Pindel;后续陆陆续续出来了很多类似软件,其实大
同小异,很多都是为了发文章而发文章的trash paper。上面说的三个软件,虽然都是
基于一种signal,但都算元老,1000genome使用的软件,而且关键是有四五年历史,很
多人使用,所以一直在update,debug,maintain,使用起来比较上手。但CNVnator是
不可能计算translocation的,Pindel可以找到translocation但Pindel是针对比较小的
structural variation,因为big SV的computational cost太高
还有一个超级好的... 阅读全帖
c*********r
发帖数: 1312
14
收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖
c*********r
发帖数: 1312
15
收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖
n******7
发帖数: 12463
16
来自主题: Biology版 - 招人denovo assembly
ocaml很nb
在代码简洁和运行效率两方面综合起来是最好的
可惜library是个大问题
MS的F#就是基于ocaml的,一片好评
可惜是MS的东西,linux下面基本没人用
scala是目前最流行的FP语言
还能支持java package
GATK就有大量的scala代码
可惜太繁杂,很多屎坑
bioinfo的项目/公司,要么在乎performance上c/c++
要么在乎简单可靠上java
scala有些尴尬
clojure我觉得很好玩,但是目前对工作没用的东西都不想花太多时间
workflow engine我没用过
我们这里做过Pegasus 的培训,我看了一下觉得没必要
实在不喜欢过度设计的系统
这里有个讨论,什么情况下用workflow engine
http://programmers.stackexchange.com/questions/103972/when-to-u
最佳回复是:
When you want to use a shiny but clunky wizard UI to and replace simple code
with something ... 阅读全帖
b********w
发帖数: 334
17
是对个人,不是对PI
1个样本起,QC+ GATK best practice
m******c
发帖数: 830
18
Sounds interesting. Do you offer bam file, other than GATK best practice?
b********w
发帖数: 334
19
是对个人,不是对PI
1个样本起,QC+ GATK best practice
m******c
发帖数: 830
20
Sounds interesting. Do you offer bam file, other than GATK best practice?
r**********e
发帖数: 587
21
来自主题: Biology版 - 高年级PhD毕业求建议
当然不是简单的run一下GATK找SNP,RNA-seq, exome, WGS, ChIP-seq, ENCODE,
1000genome, Haploreg都有接触
不过也就是跑别人的软件分析遗传学数据
请定义下何为高级bioinformatics?自己写软件?
N******n
发帖数: 3003
22
来自主题: Biology版 - 高年级PhD毕业求建议
你用的是GATK的Mutect 1 or 2 for mutation call?

发帖数: 1
23
来自主题: Biology版 - 小白弱问几个术语
没你想的复杂 就是生物信息general 用词
就是跑软件得到snp信息的意思。
比如你跑一跑gatk pipeline,得到1000个snp variant,这就是一次call
所以make variant call better,就是优化pipeline,得到更符合标准的variant
b**********l
发帖数: 116
24
来自主题: Biology版 - 小白弱问几个术语
非常感谢!
顺便感叹一下原来gatk这么流行。。。
首页 上页 1 2 (共2页)