第2页 - 关于gatk的讨论汇总 - 话题女王

W***o
发帖数: 6519

用gatk分析癌症病人的平行样品，最后出来的VCF,我想请教一下有经验的同学。
你们用什么样的threshold过滤这些数据？比如至少多少个ref，多少个alt才可以确定
genotype？

a***e
发帖数: 1010

your sample --> company --> FQ or FA file
--> blat or bowtie or Tophat to align --> (.sam, .bam file)
--> Samtools or GATK to call variants --> .vcf file (excel file)
--> igvtools or genome browser to visualize
or it is said u can use CLC to replace the last three steps.

v***r
发帖数: 1046

来自主题: Biology版 - NGS数据分析的流程

就是说公司给的是aligned好的bam文件，接下来不就是用samtools, GATK做snp
calling吗？为什么不是很容易搞定呢？难点在哪?

r*****q
发帖数: 216

来自主题: Biology版 - 市场调查 Bioinformatics RNA-seq preprocessing tool

这个确实是我的失误不过还好现在在这里知道了clc
PS 请问您是base在美国吗？在这边的bioinformatic 相关的conference里好像没怎
么看到过这个clc 公司来做推广。不过软件确实做的不错。而且在google scholar里
面search了一下也确实有很多的citations. 这里没什么人用Partek or Bina啥的?
我的impression是做rna-seq 都是用 bowtie tophat 啥的到处都在宣传感觉是公认
的。 variant call的话就是gatk 使用商业的aligner的话我以前的感觉是不被大众
所接受。这点可能是我自己的错误观点
IPA确实是一个非常好的例子算法的话做统计分析的人都不看不起但是我自己觉得
IPA厉害的地方就是他们的database up to date的annotation 这个很重要没有这个
做出来的analysis都没用。所以大家也都在用IPA。而且大部分的好的annotaoin 和
pathway的 database 现在都商业化了。我觉得可能是因为... 阅读全帖

s****l
发帖数: 10462

来自主题: Biology版 - 急问：需要多少内存

Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample，需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存（最少要求多少，最好是多少，最多再多了也没有用）？

s******y
发帖数: 17729

来自主题: Biology版 - Bioinformatics招人提供refer

能说下大致薪水范围不？
网页上说了一堆就是没提薪水
Bioinformatics Analysis Engineer
Description
We have openings for skilled and experienced bioinformaticians who have expe
rience with Next-Generation Sequencing (NGS). These individuals will help de
sign, develop, optimize and characterize new clinical assays at Invitae. Suc
cessful candidates will join a growing team that is building robust infrastr
ucture, custom sophisticated algorithms and scalable analysis capabilities f
or clinical genetics. We use agile design an... 阅读全帖

l********e
发帖数: 415

来自主题: Biology版 - NGS(GATK) vs Sanger results

NGS has a much higher error rate. This is just a sequencing error, I think.
Trust the sanger result.

s******r
发帖数: 1245

来自主题: Biology版 - NGS(GATK) vs Sanger results

看一下vcf里每个位点的depth和quality score多少，可能太低默认扔掉了
sanger是怎么做的？光看peak overlap不能知道percentage，要准的话得做subcloning
然后测几十个克隆

2)
soft

M***7
发帖数: 2420

来自主题: Biology版 - 请问有没有NGS 的教程，好用的教程10个包子奉上

这个不错，http://wiki.bits.vib.be/index.php/Hands-on_introduction_to_NGS_variant_analysis#Not_covered_during_this_training
有点长，不过很容易上手，适合新手。
或者broad institute的GATK　best practice，搞台机器，工具装一遍，test data跑
两个，基本就心里有数了

r**********e
发帖数: 587

来自主题: Biology版 - 一半实验一半生物信息求选择建议

从来就只用现成的package （alignment, GATK, haplotype, WGS, exome, RNA-seq,
structural variation）
会一些python perl R，但都是皮毛
完全没做过统计分析
我的工作主要就是寻找 genetic variation....
这也是为什么我觉得自己bioinformatics其实很弱。。

r**********e
发帖数: 587

来自主题: Biology版 - 一半实验一半生物信息求选择建议

PhD临近毕业。老板MD，主要做disease genetics,PhD前半部分是纯bioinformatics，
寻找疾病mutation或者risk lock；后半部分就是研究这些位点的功能，做了很多实验
分子细胞RNA等等基础研究（已后悔）。好处是啥都懂一些，坏处是不精通。
技能方面，不会自己写package，从来就只用现成的package （alignment, GATK,
haplotype, WGS, exome, RNA-seq,
structural variation）,会一些python perl R，但都是皮毛,完全没做过统计分析
bioinformatics方面我的工作主要就是寻找 genetic variation....这也是为什么我觉
得自己bioinformatics其实很弱。。
未来的事业方向我非常非常清楚和坚定，就是clinical genetics，只想做临床or疾病
的基因组分析，坚决不做基础生物研究。但有个选择问题是继续一半实验+一半生物信
息的模式，还是下定决心彻底做生物信息
1. 一半实验+一半生物信息：还是对有实际应用价值的医学基因组学很... 阅读全帖

r**********e
发帖数: 587

来自主题: Biology版 - 一半实验一半生物信息求选择建议

r**********e
发帖数: 587

来自主题: Biology版 - 请教染色体易位

说下我的comments吧
DELLY其实是比较新的软件，综合了paired-end discordant和split-read两种signal来
make calls，自然是不错的，而且也是1000genome使用的软件之一，而且最后结果提供
vcf format
SV领域最早最原始的三个软件，我个人认为的，read-depth的CNVnator；discordant的
breakdancer；以及split-read的Pindel；后续陆陆续续出来了很多类似软件，其实大
同小异，很多都是为了发文章而发文章的trash paper。上面说的三个软件，虽然都是
基于一种signal，但都算元老，1000genome使用的软件，而且关键是有四五年历史，很
多人使用，所以一直在update，debug，maintain，使用起来比较上手。但CNVnator是
不可能计算translocation的，Pindel可以找到translocation但Pindel是针对比较小的
structural variation，因为big SV的computational cost太高
还有一个超级好的... 阅读全帖

c*********r
发帖数: 1312

来自主题: Biology版 - 制药公司招生物信息Senior Information Scientist

收到猎头的信，biotech制药公司招人，Abbvie Bioresearch Center in Worcester,
MA，生物信息方面，具体待遇我不清楚，glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系：[email protected]/* */。
更新一下工资：The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右？
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖

c*********r
发帖数: 1312

来自主题: Biology版 - 制药公司招生物信息Senior Information Scientist

n******7
发帖数: 12463

来自主题: Biology版 - 招人denovo assembly

ocaml很nb
在代码简洁和运行效率两方面综合起来是最好的
可惜library是个大问题
MS的F#就是基于ocaml的，一片好评
可惜是MS的东西，linux下面基本没人用
scala是目前最流行的FP语言
还能支持java package
GATK就有大量的scala代码
可惜太繁杂，很多屎坑
bioinfo的项目/公司，要么在乎performance上c/c++
要么在乎简单可靠上java
scala有些尴尬
clojure我觉得很好玩，但是目前对工作没用的东西都不想花太多时间
workflow engine我没用过
我们这里做过Pegasus 的培训，我看了一下觉得没必要
实在不喜欢过度设计的系统
这里有个讨论，什么情况下用workflow engine
http://programmers.stackexchange.com/questions/103972/when-to-u
最佳回复是：
When you want to use a shiny but clunky wizard UI to and replace simple code
with something ... 阅读全帖

b********w
发帖数: 334

来自主题: Biology版 - ＄399 75x on-target CLIA certified Whole Exome Sequencing

是对个人，不是对PI
1个样本起，QC+ GATK best practice

m******c
发帖数: 830

来自主题: Biology版 - ＄399 75x on-target CLIA certified Whole Exome Sequencing

Sounds interesting. Do you offer bam file, other than GATK best practice?

b********w
发帖数: 334

来自主题: Biology版 - ＄399 75x on-target CLIA certified Whole Exome Sequencing

是对个人，不是对PI
1个样本起，QC+ GATK best practice

m******c
发帖数: 830

来自主题: Biology版 - ＄399 75x on-target CLIA certified Whole Exome Sequencing

Sounds interesting. Do you offer bam file, other than GATK best practice?

r**********e
发帖数: 587

来自主题: Biology版 - 高年级PhD毕业求建议

当然不是简单的run一下GATK找SNP，RNA-seq, exome, WGS, ChIP-seq, ENCODE,
1000genome, Haploreg都有接触
不过也就是跑别人的软件分析遗传学数据
请定义下何为高级bioinformatics？自己写软件？

N******n
发帖数: 3003

来自主题: Biology版 - 高年级PhD毕业求建议

你用的是GATK的Mutect 1 or 2 for mutation call?

发帖数: 1

来自主题: Biology版 - 小白弱问几个术语

没你想的复杂就是生物信息general 用词
就是跑软件得到snp信息的意思。
比如你跑一跑gatk pipeline，得到1000个snp variant，这就是一次call
所以make variant call better，就是优化pipeline，得到更符合标准的variant

b**********l
发帖数: 116

来自主题: Biology版 - 小白弱问几个术语

非常感谢！
顺便感叹一下原来gatk这么流行。。。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天