W***o 发帖数: 6519 | 1 用gatk分析癌症病人的平行样品,最后出来的VCF,我想请教一下有经验的同学。
你们用什么样的threshold过滤这些数据?比如至少多少个ref,多少个alt才可以确定
genotype? |
|
a***e 发帖数: 1010 | 2 your sample --> company --> FQ or FA file
--> blat or bowtie or Tophat to align --> (.sam, .bam file)
--> Samtools or GATK to call variants --> .vcf file (excel file)
--> igvtools or genome browser to visualize
or it is said u can use CLC to replace the last three steps. |
|
v***r 发帖数: 1046 | 3 就是说公司给的是aligned好的bam文件,接下来不就是用samtools, GATK做snp
calling吗?为什么不是很容易搞定呢?难点在哪? |
|
r*****q 发帖数: 216 | 4 这个确实是我的失误 不过还好 现在在这里知道了clc
PS 请问 您是base在美国吗? 在这边的bioinformatic 相关的conference里好像没怎
么看到过这个clc 公司来做推广。 不过软件确实做的不错。 而且在google scholar里
面search了一下 也确实有很多的citations. 这里没什么人用Partek or Bina啥的?
我的impression是 做rna-seq 都是用 bowtie tophat 啥的 到处都在宣传 感觉是公认
的。 variant call的话 就是gatk 使用商业的aligner的话 我以前的感觉是不被大众
所接受。这点可能是我自己的错误观点
IPA确实是一个非常好的例子 算法的话 做统计分析的人都不看不起 但是我自己觉得
IPA厉害的地方就是 他们的database up to date的annotation 这个很重要 没有这个
做出来的analysis都没用。所以大家也都在用IPA。 而且大部分的好的annotaoin 和
pathway的 database 现在都商业化了。 我觉得可能是因为... 阅读全帖 |
|
s****l 发帖数: 10462 | 5 Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample,需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)? |
|
s******y 发帖数: 17729 | 6 能说下大致薪水范围不?
网页上说了一堆就是没提薪水
Bioinformatics Analysis Engineer
Description
We have openings for skilled and experienced bioinformaticians who have expe
rience with Next-Generation Sequencing (NGS). These individuals will help de
sign, develop, optimize and characterize new clinical assays at Invitae. Suc
cessful candidates will join a growing team that is building robust infrastr
ucture, custom sophisticated algorithms and scalable analysis capabilities f
or clinical genetics. We use agile design an... 阅读全帖 |
|
l********e 发帖数: 415 | 7 NGS has a much higher error rate. This is just a sequencing error, I think.
Trust the sanger result. |
|
s******r 发帖数: 1245 | 8 看一下vcf里每个位点的depth和quality score多少,可能太低默认扔掉了
sanger是怎么做的?光看peak overlap不能知道percentage,要准的话得做subcloning
然后测几十个克隆
2)
soft |
|
|
r**********e 发帖数: 587 | 10 从来就只用现成的package (alignment, GATK, haplotype, WGS, exome, RNA-seq,
structural variation)
会一些python perl R,但都是皮毛
完全没做过统计分析
我的工作主要就是寻找 genetic variation....
这也是为什么我觉得自己bioinformatics其实很弱。。 |
|
r**********e 发帖数: 587 | 11 PhD临近毕业。老板MD,主要做disease genetics,PhD前半部分是纯bioinformatics,
寻找疾病mutation或者risk lock;后半部分就是研究这些位点的功能,做了很多实验
分子细胞RNA等等基础研究(已后悔)。好处是啥都懂一些,坏处是不精通。
技能方面,不会自己写package,从来就只用现成的package (alignment, GATK,
haplotype, WGS, exome, RNA-seq,
structural variation),会一些python perl R,但都是皮毛,完全没做过统计分析
bioinformatics方面我的工作主要就是寻找 genetic variation....这也是为什么我觉
得自己bioinformatics其实很弱。。
未来的事业方向我非常非常清楚和坚定,就是clinical genetics,只想做临床or疾病
的基因组分析,坚决不做基础生物研究。但有个选择问题是继续一半实验+一半生物信
息的模式,还是下定决心彻底做生物信息
1. 一半实验+一半生物信息:还是对有实际应用价值的医学基因组学很... 阅读全帖 |
|
r**********e 发帖数: 587 | 12 从来就只用现成的package (alignment, GATK, haplotype, WGS, exome, RNA-seq,
structural variation)
会一些python perl R,但都是皮毛
完全没做过统计分析
我的工作主要就是寻找 genetic variation....
这也是为什么我觉得自己bioinformatics其实很弱。。 |
|
r**********e 发帖数: 587 | 13 说下我的comments吧
DELLY其实是比较新的软件,综合了paired-end discordant和split-read两种signal来
make calls,自然是不错的,而且也是1000genome使用的软件之一,而且最后结果提供
vcf format
SV领域最早最原始的三个软件,我个人认为的,read-depth的CNVnator;discordant的
breakdancer;以及split-read的Pindel;后续陆陆续续出来了很多类似软件,其实大
同小异,很多都是为了发文章而发文章的trash paper。上面说的三个软件,虽然都是
基于一种signal,但都算元老,1000genome使用的软件,而且关键是有四五年历史,很
多人使用,所以一直在update,debug,maintain,使用起来比较上手。但CNVnator是
不可能计算translocation的,Pindel可以找到translocation但Pindel是针对比较小的
structural variation,因为big SV的computational cost太高
还有一个超级好的... 阅读全帖 |
|
c*********r 发帖数: 1312 | 14 收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖 |
|
c*********r 发帖数: 1312 | 15 收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖 |
|
n******7 发帖数: 12463 | 16 ocaml很nb
在代码简洁和运行效率两方面综合起来是最好的
可惜library是个大问题
MS的F#就是基于ocaml的,一片好评
可惜是MS的东西,linux下面基本没人用
scala是目前最流行的FP语言
还能支持java package
GATK就有大量的scala代码
可惜太繁杂,很多屎坑
bioinfo的项目/公司,要么在乎performance上c/c++
要么在乎简单可靠上java
scala有些尴尬
clojure我觉得很好玩,但是目前对工作没用的东西都不想花太多时间
workflow engine我没用过
我们这里做过Pegasus 的培训,我看了一下觉得没必要
实在不喜欢过度设计的系统
这里有个讨论,什么情况下用workflow engine
http://programmers.stackexchange.com/questions/103972/when-to-u
最佳回复是:
When you want to use a shiny but clunky wizard UI to and replace simple code
with something ... 阅读全帖 |
|
b********w 发帖数: 334 | 17 是对个人,不是对PI
1个样本起,QC+ GATK best practice |
|
m******c 发帖数: 830 | 18 Sounds interesting. Do you offer bam file, other than GATK best practice? |
|
b********w 发帖数: 334 | 19 是对个人,不是对PI
1个样本起,QC+ GATK best practice |
|
m******c 发帖数: 830 | 20 Sounds interesting. Do you offer bam file, other than GATK best practice? |
|
r**********e 发帖数: 587 | 21 当然不是简单的run一下GATK找SNP,RNA-seq, exome, WGS, ChIP-seq, ENCODE,
1000genome, Haploreg都有接触
不过也就是跑别人的软件分析遗传学数据
请定义下何为高级bioinformatics?自己写软件? |
|
N******n 发帖数: 3003 | 22 你用的是GATK的Mutect 1 or 2 for mutation call? |
|
发帖数: 1 | 23 没你想的复杂 就是生物信息general 用词
就是跑软件得到snp信息的意思。
比如你跑一跑gatk pipeline,得到1000个snp variant,这就是一次call
所以make variant call better,就是优化pipeline,得到更符合标准的variant |
|
b**********l 发帖数: 116 | 24 非常感谢!
顺便感叹一下原来gatk这么流行。。。 |
|