由买买提看人间百态

topics

全部话题 - 话题: snps
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
j*p
发帖数: 411
1
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖
j*p
发帖数: 411
2
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖
G***y
发帖数: 1082
3
A couple of questions you need to ask yourself:
1. Are the two SNPs authentic? Try first look at the raw alignments to make
sure the SNPs are not caused by mis-alignment or things like that. MANY SNPs
that are close by are actually sequencing/alignment artifacts.
2. What is the inherence pattern? You mentioned both SNPs are relatively
common (~5% MAF). If they are on the same haplotype, they are very likely to
be in complete LD (r2=1). So the expectation is in any given individual you
either see... 阅读全帖
p********a
发帖数: 5352
4
☆─────────────────────────────────────☆
vincentsg (vincentsg) 于 (Tue Feb 5 11:42:22 2008) 提到:
i have 2 genes ---A and B , A 有 10 SNPs , B有6 SNPs.
A的10个SNPs中, 有9个 与某病X有关系, ( i did the model X~SNP for each SNP
separately)
B的6个SNPs中, 有0个 与某病X有关系, ( i did the model X~SNP for each SNP
separately)
怎样fit 1 个 model to show effect of GENE A as 9 of 10 SNPs are relatted
with
某病X?
what is the sas code?
Thanks!
☆─────────────────────────────────────☆
sir ( 郎 ) 于 (Tue Feb 5 13:07:38 2008) 提到:
i***r
发帖数: 1035
5
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
谢谢,祝你一切顺利!
我这种情况怎么搞(目前还是没有弄明白)
有2个原始文件,一个是发飙了的SNPs数据,大概70个不同human poupulations,是一
个bed文件,结构是这样(右边省略了若干column)
chr1 41217 41218 snp 2 + T A dbsnp.108:
rs3863625 NN
chr1 41255 41256 snp 3 + C T dbsnp.111:
rs4543737 NN
chr1 41980 41981 snp 4 + A G dbsnp.86:
rs806721
姑且叫A.bed
另一个是个bam文件,别的地方下载的,是另一个human population数据,转成sam文件
之后(为了好看把SEQ和QUAL拿掉了):
all-hg18_1 0 chr1 39 10... 阅读全帖
i***r
发帖数: 1035
6
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
谢谢,祝你一切顺利!
我这种情况怎么搞(目前还是没有弄明白)
有2个原始文件,一个是发飙了的SNPs数据,大概70个不同human poupulations,是一
个bed文件,结构是这样(右边省略了若干column)
chr1 41217 41218 snp 2 + T A dbsnp.108:
rs3863625 NN
chr1 41255 41256 snp 3 + C T dbsnp.111:
rs4543737 NN
chr1 41980 41981 snp 4 + A G dbsnp.86:
rs806721
姑且叫A.bed
另一个是个bam文件,别的地方下载的,是另一个human population数据,转成sam文件
之后(为了好看把SEQ和QUAL拿掉了):
all-hg18_1 0 chr1 39 10... 阅读全帖
w**k
发帖数: 6722
7
转到统计老家来问问
原帖在
http://www.mitbbs.com/article_t/Biology/31928741.html
【 以下文字转载自 Biology 讨论区 】
发信人: wxwk (wxwk), 信区: Biology
标 题: Re: 请教一个统计学问题,需要多少个SNPs去鉴定一个人
发信站: BBS 未名空间站 (Wed Dec 10 16:07:15 2014, 美东)
如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP ... 阅读全帖
w**k
发帖数: 6722
8
如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人
,其中的错误的可能性小到可以忽略。
m*****s
发帖数: 156
9
你这个就是个概率问题了,算清楚概率就行了

如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人
,其中的错误的可能性小到可以忽略。
W****7
发帖数: 426
10
来自主题: Biology版 - 求教怎么深入研究snp的功能
最近在改一个proposal,某基因有几个snp,reviewer说这几个snp是怎么起作用的不清
楚。所以我打算设计几个实验来回复一下这个问题,但是从来没有涉及过这方面的研究
。希望有经验的同志们不吝赐教!
说说我外行的想法先。我觉得最终无非就是这些snp是否影响基因表达水平,或者蛋白
量,如果都没变的话要看看是否蛋白功能有所改变。这里的问题就在于snp位于什么位
置,如果在编码区就直接做点突变检测蛋白表达量和功能就好;如果在启动子内就看是
否影响转录活性,做个luciferase就可以,对么?但是如果在intron或者在启动子还上
游呢怎么做呢?要看是否影响转录调控?还有一个根本问题就是,有什么网站可以直接
确定snp的位置的吗?还是都用最笨的方法直接到基因组里找这个位点?总觉得应该有
更聪明的方法。问题有点多,感谢赐教!
i*e
发帖数: 352
11
来自主题: Biology版 - 求教怎么深入研究snp的功能
你连SNP在什么位置都不知道怎么找,跳SNP功能这破坑?呵呵
简单一点的你去HaploReg上看看跟这个SNP LD强的那些SNP有啥所谓的功能
尤其你这个SNP在intron,还是从它的proxy入手比较方便
b****r
发帖数: 17995
12
你们真的只做了一个改变氨基酸的SNP?i don't know if the reviewers gonna buy
that
绝大多数目前的类似实验都是比一个基因里的若干SNP甚至若干基因里的若干SNP
你能解释一下为什么你们决定如此大规模研究这个SNP?看看你能不能说服我。我还是
审过不少类
似文章的
L******e
发帖数: 679
13
来自主题: Biology版 - Please help for SNP detection
Using TaqMan SNP genotyping assay to detect a SNP. The problem is that all
samples (blood genomic DNA) always showed the same "heterozygous" patten:
signals for WT and SNP are the same.
Does that mean the probes bind unspecifically? i tried different annealing
tep. at 60, 62 and 64 C degree, looks no much change.
The Tm of the primers: 55 C (forward) and 59 C (reverse)
The Tm of probes: 51 C (WT), 49 C (SNP)
PCR product: 90 bps
The primers and probes are designed by the ABI.
What can i do nex... 阅读全帖
p***g
发帖数: 66
14
我从文献中得到了一些疾病相关的SNP(single point mutations, for example,
rs85462)和对应Gene. 我想看看这些SNP都是什么类型: frameshift, missense,
nonsense etc. 该查什么database, db.snp?
然后我想作图看看mutations 分布在哪些protein domain (象附件图). 需要用什么
databases (protein domain mapping) 和什么软件. 请各位多多指点, 万分感激!
A little more information: I need to check several hundreds of SNPs for tens
of genes. Just visualize their distribution and effect on protein function/
structure. That’s why I need some software/web applications to do it.
i*******n
发帖数: 48
15
1)SNP database
http://www.ncbi.nlm.nih.gov/snp
domain database
http://www.ncbi.nlm.nih.gov/cdd
2)cancer mutation database
http://www.sanger.ac.uk/genetics/CGP/cosmic/
3)Map SNP to domain
http://polydoms.cchmc.org/polydoms/
4)Map SNP to structure
http://www.bioinf.org.uk/saap/

couldn
drawn.
?
must
u*********1
发帖数: 2518
16
不知道怎么取题目。。。
就是现在发现同一个基因里的两个SNP,相隔3个bp,都是nonsynonymous SNP,两者的
MAF(minor allele frequency)都在5%左右,一个不高不低的数值(比如UCSC定义MAF
<=1%的才算rare SNP)。
我就是想问,这相隔3个bp的俩SNP,到底是独立遗传的,还是更可能是同时遗传的(也
就是同一个haplotype)?如果haplotype里这两个mutation总是在一起同时遗传的,那
他们俩作为整体的MAF就是5%;如果是相对独立的,那么MAF最小可以是0.25%,这样就
是一个很好的rare mutation的candidate。是不是要去找haplotype的database?
希望我表达清楚了。多谢。
u*********1
发帖数: 2518
17
直接用annovar吧
把你那个”某些群体的SNP“为点作为database,但貌似要是vcf格式
annotate_variation.pl -filter -dbtype vcf -vcfdbfile ”某些群体的SNP“.vcf "
另外一个群体的SNP” humandb/
其实如果你不做后续的比如寻找missense SNP的话,你完全可以写个很简单的script直
接比较好了。
u*********1
发帖数: 2518
18
还需要知道那个SNP position 位点是不是 在我的新数据里面也是SNP
Don't quite understand. You mean "your new database"(我的新数据) is not SNP-
calling file? Then first use GATK/Samtools to call SNP/indel from "your new
database", then filter against your old database.
If you have no experience using GATK, and in a hurry to get results, I
strongly suggest using Samtools, which is basically just one bash command,
while GATK is monsterous algorithm. Also newest version of GATK is coming
out and all those old scripts may now be ... 阅读全帖
i***r
发帖数: 1035
19
举个例子:
数据B:已发表的我们发现的SNPs,大概这样(chromosome,位点,和SNPs,其余省略)
chr1 1240 *** C
chr1 1270 *** T
数据A:最新的测序数据,大概这样(chromosome,序列起点,末点,CIGAR,序列,其
余略)
chr1 1234 1279 * * * 20M5D20M AAAAACCCCCCTTTTTGGGGGAAAAACCCCCTTTTTGGGGG
任务
1)确定A序列包含了B里面的SNP(两个SNPs都在1234-1279的区间,是我要的)
2)进一步根据序列,找出对应位点的base
example 1 是在第6个(1240-1234=6)base上,那么是C
example 2 是在第36个(1270-1234=36)base上,根据CIGAR code,有5个deletion,
股序列应该是:
AAAAACCCCCCTTTTTGGGGG*****AAAAACCCCCTTTTTGGGGG
那么应该是也是T
我现在就是有数据A和B,需要有软件能够:自动比较区间,同时根据CIGAR code找出对
应的base ... 阅读全帖
i***r
发帖数: 1035
20
pileup不行,我用你的方法,出来全是N。主要是我问题没有说清楚(发现要说清楚很
难)
就像楼上说的,pileup是对多个reads,找可能的snps
我是要找B文件里面的SNP位点,是否在A(序列)中可能存在,所以
先看B位点是否在A的区间内,如果是
再看那个位点上,A是什么碱基,如果和reference不一样,则考虑是SNP (population
A 的SNP)
g**a
发帖数: 2129
21
关键是选择哪几个SNP。CNV, rare variant的发生概率不一样,更何况还有linkage
disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说,要达到你的目
的,直接选用那些SNP不就可以了吗?
x*****d
发帖数: 704
22
来自主题: Biology版 - 求教怎么深入研究snp的功能
"这里的问题就在于snp位于什么位
置,如果在编码区就直接做点突变检测蛋白表达量和功能就好;如果在启动子内就看是
否影响转录活性,做个luciferase就可以,"
对的。可以先这么做。对于在coding region的snp,可以看是不是missense。如果是
missense,可以做SIFT, Polyphen2看看对protein function有没有影响。
“但是如果在intron或者在启动子还上
游呢怎么做呢?要看是否影响转录调控?”
这就比较麻烦一点。intronic snp可以首先看有没有影响splicing,其次看mirna。还
有可以用A Catalog of Published Genome-Wide Association Studies看看有没有和以
前的GWAS有关
“还有一个根本问题就是,有什么网站可以直接
确定snp的位置的吗?”
NCBI dbSNP
h******y
发帖数: 173
23
来自主题: Biology版 - snp density 的 问题
点突变不叫SNP,SNP需要占一定的群体比例(比如>1%)。
你说“一段800 bp 的区间, 有十几个snp”,假如每个SNP都是独立的,这基本上不大
可能。
l******o
发帖数: 3764
24
100个snp, snp1-snp100,
每个snp有3种可能的genotype 比如AA AT TT
怎么样按genotype frequency high->low 给这三个基因型赋值 0 1 2?
补充一下 大概我说的太不清楚了 而且我忘记说明问的是SAS code 不好意思
我不是问怎么求每个SNP的allele frequency
而是想问有什么批量处理的方法能自动检测每个SNP的genotype frequency并且recode成0 1 2
感觉大家给我的建议都是手动一个个的操作啊
如果不是这个意思的话 还请高手们给点详细的建议
多谢多谢
W********w
发帖数: 771
25
谢谢大家的分享, 听你们一点拨, 胜过Google和看Paper无数。 那我就展开说说这个
project的历史和结果, 看看能不能说服你们这些专家, 并请推荐合适的杂志。
前面说过, 我是做蛋白化学和细胞生物学的。 我做的一个癌症相关蛋白质能够结合某
一体内代谢物,结构已阐明(不是我做的), 我比较了一下结构和dSNP Database发现
这个蛋白有个变意SNP所编码的氨基酸能够决定蛋白结合底物的flexibility (基于结构
的猜想, 需要用NMR做动态分析)。自己用小规模病例测了一下, 确认了SNP。本着无
知者无畏的精神, 在开会时跟两家有Sample的Lab谈合作测定这个SNP, 当然经过千苦
万难, 此处不表。 最后测了大约150个正常人群, 1000个良性肿瘤, 和300个癌症。
都是白人。 正常人群中, 基因型符合Hardy–Weinberg equilibrium, 但在其它两
个人群中不符合。良性肿瘤比正常人群, Minor Allele p=0.01, odds 近2; 癌症比
正常人群,Minor Allele p=0.03, odds 近2;癌症比良性肿... 阅读全帖
s*****0
发帖数: 357
26
把三组人群的一些baseline characteristic 比如年龄,性别,抽烟(如果是肺癌之类
), 饮食(如果食道癌之类)等
等做个Anova, 看看除了你的snp以外有无其它诱发因素,最后把都significant的
factor 试试fit logistic model, 看看其
中snp的相对贡献。
你的study不是replicative而是exploratory, 不用拘泥于adjusted p, 只是最后得出
结论时要有所保留。文章还是投跟
该疾病相关的杂志,能被接受的可能性很大,毕竟你的study size 不小。如果能把机
理搞明白,并且在另一个
cohort上复制你的multivariate model以及单个snp的significance,下一篇直接上
nature genetics.
l******o
发帖数: 3764
27
那个,如果这个问题比较弱智的话还请不吝赐教 别嘲笑俺:
今天老板让我整理以前实验室genotyping的结果 特别嘱咐让把那些SNP的rs号都写上。
有好几个SNP都是ABO gene的,但是前面的人没有写rs号,就叫它们G703A, G526C这样
的名字。这个G703A,我看了一下,应该就是最常见的A->B吧,但是不知道是不是因为
太常见了,查到的paper都管它叫G703A, 没找到谁用rs编号的
我不太熟悉genetics,最后实在没辙,只好去NCBI上找了ABO gene出来,然后估摸着
extrone上差不多是700的位置放大了,终于看到703上那个SNP叫啥
请问有没有更简单一点的办法呢?
t*d
发帖数: 1290
28
来自主题: Biology版 - 咱们又多出3倍的 SNPs 了
MONTREAL (GenomeWeb News) – Analyses of data for nearly 1,100 individuals
assessed through phase 1 of the 1000 Genomes Project have uncovered more
than 40 million genetic variants in the human genome, including almost 30
million SNPs not detected previously.
Overall, the researchers identified some 37.9 million SNPs in the dataset,
including 29.7 million new SNPs. In addition, the team tracked down 3.8
million short indels and 14,000 large deletions. McVean noted that this set
represents highly ... 阅读全帖
i***r
发帖数: 1035
29
我有2个文件,一个是所有某些群体的SNPs位点,另一个是最新测序的另一个群体
现在我要在新的测序里面,找是否和原已知的SNPs有交集,然后确认在新的测序里面,
那个位点是/不是SNP
请教什么工具可以做?
l******o
发帖数: 3764
30
有一个paper里面提到了几个SNPs有funtional change,
没有给rs#,只给了相对位置
其中有两个SNP在dbSNP里面根本找不到
分别是 UGT1A4 -36G>A, UGT1A4 -217T>G
dbSNP里面UGT1A4 5' near gene region倒数4个分别是
rs3732219 -219C>T
rs45454101 -204G>A
rs3732218 -163G>A
rs199517966 -39C>T
请问为什么会这样?我有什么地方理解错了吗?
dbSNP link:
http://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?chooseRs=a
y***i
发帖数: 11639
31
现在有:在病人中snp的分布是:AA:AB:BB=r1:r2:r3
如果不知道正常人中的snp分布,从这个ratio中能得到什么信息?
如果知道在正常人中的snp分布,AA:AB:BB=n1:n2:n3,又能得到什么信息?
多谢大侠。另外有基础的阅读材料推荐的话,就太感谢了。
a******r
发帖数: 786
32
进化学上是同样不同源,大概就是鸟的翅膀和蝙蝠的翅膀,虽然都是翅膀,但不是一个
路子进化来的(具体是不是我也不知道啊,大概就这个意思)
SNP 也一样,可能都是A to T SNP,但是不是一路子来的,可能两个物种同时随机到了
这个 A to T snp
c***y
发帖数: 615
33
来自主题: Biology版 - snp density 的 问题
感觉现在很多paper不再提这个1%的标准了:
http://www.sciencedirect.com.proxy-um.researchport.umd.edu/science/article/pii/S1877959X12000751?_rdoc=1&_fmt=high&_origin=gateway&_docanchor=&md5=b8429449ccfc9c30159a5f9aeaa92ffb&ccp=y
这里说 1 snp/14 base, 而且这里还提到“The mosquito Culex pipiens has the
highest SNP density so far reported, with one SNP per 7 bases (Lee et al.,
2012).”
所以一直在犹豫如何描述这种情形
a********s
发帖数: 188
34
You can write a SAS Macro to assign 0,1,2 to each SNP, one by one. If you
want, you can refer the following steps:
(1) Use PROC CONTENTS and PROC SQL to output all SNP names into a macro
variable, separated by " "
(2) Use DO WHILE ... (statement) ... END to assign 0,1,2 to each snp based
on alleles' frequencies.
(2.1) Inside the (statement), use PROC FREQ, and data MERGE functions to
calculate frequencies, assign 0,1,2, and merge dataset
d*****u
发帖数: 17243
35
SNP位点rs13010010位于一个显著影响智商的基因座位中,该处有一个非编码RNA基因
LINC01104,该基因在大脑皮层中高表达;对这个SNP位点多态性本身的分析也显示其对
智商的高影响;同时该位点的多态性还与受教育程度显著相关。东亚人中的频率大约为
55.16%(T)。
该位点在不同人群中的频率(ss1298459805项目):
东亚 C 0.44840002 T 0.55160004
欧洲 C 0.61429995 T 0.38569999
非洲 C 0.98029995 T 0.01970000
美原 C 0.81560004 T 0.18440001
南亚 C 0.78829998 T 0.21170001
W*****B
发帖数: 4796
36
有没有高颜值的基因频率数据,

:SNP位点rs13010010位于一个显著影响智商的基因座位中,该处有一个非编码RNA基因
:LINC01104,该基因在大脑皮层中高表达;对这个SNP位点多态性本身的分析也显示其
对智商的高影响;同时该位点的多态性还与受教育程度显著相关。东亚人中的频率大约
为55.16%(T)。
:该位点在不同人群中的频率(ss1298459805项目):
:东亚 C 0.44840002 T 0.55160004
:欧洲 C 0.61429995 T 0.38569999
:非洲 C 0.98029995 T 0.01970000
:美原 C 0.81560004 T 0.18440001
:南亚 C 0.78829998 T 0.21170001
k***x
发帖数: 6799
a***r
发帖数: 420
38
比较急,有用的帮助包子谢~!
我有一堆SNP,除了想知道它们的alleles外,还想具体一点知道他们的minor allele(如果有MAF就更好了)
形式最好是可以massive query的,比如一个file或者TextEntry一次输入1000+个SNP,获得表格形式的返回信息
望版上达人指教,谢谢:)
A*****n
发帖数: 243
39
作了几个SNP得到p-value 0.03?。如果是genome scan的话,这个p-value也太差了。

SNP
是主要疾病调控基因,
Genetics
equilibrium, 但在癌症患者(300)中不符合, 这说明啥问题, 影响发文章吗。
s******s
发帖数: 13035
40
你是根据理论就比了这个SNP,还是比了好多SNP,只有这个
significant.
c*******n
发帖数: 300
41
单独的snp比较难发,现在的gwas太多了。最好做到halpotype.
另外你做了什么假设,additive, dominant, recessive or others?
有没有adjust other factors?

SNP
是主要疾病调控基因,
Genetics
e*****t
发帖数: 642
42
nice tool. but not work for me. Our snps idenfitied by ours only. it's not
in any database yet. so we don't have snp id.
b****r
发帖数: 17995
43
http://phenome.jax.org/db/q?rtn=snp/ret1
输入染色体区段,基因名都可以,10多个strain都列一起了很方便
以后类似问题可以考虑先试试google, 比如搜 SNP mouse,google一般都会把最好的
几个链接放前面。真是很佩服google,啥东西都知道
u*********1
发帖数: 2518
44
拿到某疾病sample的whole-genome sequencing数据,鉴定出SNP;其实不仅SNP,各种
structural variants我也搞到了手上。
请问然后做什么呢?
和已经有的database比较挑出rare variants?
然后看这写variants影响了什么coding region?
甚至和DNAse 1 hypersensitivity或者eQTL比较来找影响到了什么noncoding region?
我感觉WGS之后的下游genetic basis分析然后来找什么致病位点挺傻的,大部分
noncoding region我们都搞不清楚是什么功能。然后作为bioinformatician能做的就这
么多了,不晓得在biology/medicine角度还有什么可以继续探究的思路?
另外,如果我拿到100个甚至500个WGS的data,又应该怎么做呢?做population
genetics?
请前辈高人指教!
谢谢
l****j
发帖数: 70
45
来自主题: Biology版 - 谁有做snp的genotyping 学习资料
我N年前有做过,基本的做法是提取全血基因组DNA然后对你感兴趣的基因进行PCR,然
后测序,跟正常序列对比,如果有突变缺失插入就是SNP位点。这个方法比较落后,现
在出高通量的新方法了吧,很多公司可以做的。
为什么要筛SNP? 还可以再做做proteomics
y******0
发帖数: 6296
46
来自主题: Biology版 - 谁有做snp的genotyping 学习资料
多谢你的回答,给你个包子。
我们主要是把某个疾病人群中的snp作分析,然后用统计学方法看哪个snp与该疾病有关
系。
u*********1
发帖数: 2518
47
确定是完全连锁吗?complete linkage?
我就是缺乏这个知识啊,就是说如果两个SNP就差3个bp,就一定是总是在一起的吗?
因为我是在找rare SNP。。。。
k******d
发帖数: 76
48
GATK 和samtools可以call SNPs。annovar好像可以比较是否有交集,最简单的是写一
个程序直接比较两个SNP文件
i***r
发帖数: 1035
49
关键是还要根据 CIGAR code 校正每一个call, 因为我最后不仅需要知道有没有交集
,还需要知道那个SNP position 位点是不是 在我的新数据里面也是SNP
也可以自己写,但是有现成的tool会比较efficient。 而且我刚接触这个领域,容易写错
n******7
发帖数: 12463
50
我没做过复杂的SNP分析,不负责任地随便说说
你数据A应该是SAM格式的alignment数据吧?不建议你直接一个read一个read的来分析
variance site,因为这个完全可能是sequencing/alignment的错误造成的。最直接可
靠的方法是用一些variance caller,比如samtools,先call出snp/indel来,然后在比
较。这个比较可以用一些标准工具,比如楼上提到的;或者自己写个简单的脚本。

略)
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)