n******7 发帖数: 12463 | 1 最近处理一些数据,鉴定到了几百个unique的transcripts,对应一百来个基因。这样
很多
transcripts其实是一个gene的不同isoform。现在因为要annotate这些isoform而有些头
疼。
1. 哪里有高质量又比较全的isoform数据呢?
我希望用已知的isoform的一个集合做reference,来确定我们鉴定的isoform,哪些是
之前已
经被发现的,哪些是我们新近鉴定出来的。
我个人喜欢用RefSeq数据,但是挑了几个基因,发现RefSeq记录的isoform数量还是挺
少的。
UCSC Known gene没有经过human curation,很多记录仅仅基于genbank数据。我担心会有
很多artificial的序列
GenCode/ENSEMBLE 数据,一直没太搞明白,Gendoce的level 1+2的数据似乎质量还可
以,
但是也不知道他们具体的annotation的流程
CCDS似乎就是ENSEMBLE和RefSeq的交集,coverage估计是个问题
Alternative Splicing的数据我不太熟悉,看过一些数据库,很多都是基于splicing
events预测的transcripts,这个也不是我们想要的。
我现在突然觉得很困惑,这一二十年来,到底样才算鉴定了一条序列?大家公认的方法
是什么呢?
Sanger sequenceing?就我的经验,二代测序的数据(RNA-SEQ)直接拼接的话,官方
软件是
会把所有alternative splicing events的组合都遍历,这样会产生很多artificial的
isoform。 我突然发现我不知道database,特别是primary database,像genbank这种,
里面的数据是怎么得到呢?是不是全长都测通了?
2. 哪里有基于isoform的注释信息呢?
很多mRNA database都会整合外部的信息到每条RNA上,但是实际上大部分,如果不是所
有的
话,都是gene base的。比如表达信息,UCSC Genome Browser会给你的RNA track加上
expression信息。但是这些microarray的数据其实是针对响应的gene的,不是特定的
transcript。再如UniProt,按说一个protein对应一个RNA了,但是其实这里一个
record可
以对应多个RNA,甚至多个geneid(不同loci)。似乎没有一个真正针对实验鉴定的
isoform提
供各种注释的database了?(RefSeq我不知道它的RNA注释是不是全部是isoform
specific
的)
从实验的角度来说,很多现在知道的isoform在多年以前的并不为人所知,这样当时的
实验分析也
许就没有区分那个时候已知的和未知的isoform。。。 而且有那些实验是要确定了精确的
sequence信息才能做的,哪些不是呢? 我有点晕了。
我们现在开始人工文献挖掘,我总觉得在重新发明车轮
3. 有哪些biology/bioinfo的论坛?
我想多找人问问,而mail list往往针对一个特定的工具/领域,我这些问题不知道哪里
问。
Thanks in advance! |
n******7 发帖数: 12463 | |
m*********7 发帖数: 606 | 3 从个人经验说吧,我认为目前对于isoform的归纳总结极少,历史上遗留下来的问题极
多,而且很多人不在乎。你所提到的那些问题如果想得到答案,必须自己去下功夫挖了。
当年我做一个基因,文献历史就已经很传奇了。最早从cDNA库调出的两个基因,其中一
个在九年后被人发现有严重测序错误,另一个11年后被发现是从rat cDNA库里调出来的
(最早被当做人的基因发表)。我根据那11年后宣称是人的基因去做克隆,死活做不出
来。最后才发现这是一个只在个别组织里表达的特定isoform,不是普遍表型。直到今
天NCBI里的记录都是不正确的。
后来做几个别的基因,都或多或少有类似问题。搞得我现在每次都是在NCBI里把所有相
关记录都翻出来仔仔细细看,并且恨不得每个基因都自己做一遍5'-RACE和3'-RACE。 |
t*d 发帖数: 1290 | |
n******7 发帖数: 12463 | 5 谢谢!
当时头都大了,因为结果不怎么好。现在结果好多了,这个问题似乎大家都ignore了。
。。
了。
【在 m*********7 的大作中提到】 : 从个人经验说吧,我认为目前对于isoform的归纳总结极少,历史上遗留下来的问题极 : 多,而且很多人不在乎。你所提到的那些问题如果想得到答案,必须自己去下功夫挖了。 : 当年我做一个基因,文献历史就已经很传奇了。最早从cDNA库调出的两个基因,其中一 : 个在九年后被人发现有严重测序错误,另一个11年后被发现是从rat cDNA库里调出来的 : (最早被当做人的基因发表)。我根据那11年后宣称是人的基因去做克隆,死活做不出 : 来。最后才发现这是一个只在个别组织里表达的特定isoform,不是普遍表型。直到今 : 天NCBI里的记录都是不正确的。 : 后来做几个别的基因,都或多或少有类似问题。搞得我现在每次都是在NCBI里把所有相 : 关记录都翻出来仔仔细细看,并且恨不得每个基因都自己做一遍5'-RACE和3'-RACE。
|
c*********r 发帖数: 1312 | 6 感觉有isoform是细胞里很普遍的行为,在一个Illumina的seminar上看到过一个印象深
刻的图,一个基因有一百多种证实存在的可变剪接。
有文章说人的95%的多外显子基因都有可变剪接。
http://www.nature.com/ng/journal/v40/n12/full/ng.259.html
这么多isoform,真想知道以后的研究该怎么做啊? |
b****r 发帖数: 17995 | 7 据我的理解,现在大家还处在直接ignore 大部分isoform的阶段,实在躲不开了就自己
深入研究一下那个基因,基因组水平的annotation高质量的还没有吧。一般就是用est
拼出来的?
楼主如果你发现了一种高通量annotate isoform的方法,应该可以发一篇很不错的文章 |
b****r 发帖数: 17995 | 8 我觉得也没什么好担心的
根据我自己的实验经验,我觉得大部分剪切型可能只是很痕量的表达,只是用PCR之类
极其敏感的方法能够鉴别出来,实际上是没有什么生物学意义的。RNA转录到翻译是一
个多级调控的过程,我觉得有很多残次品很正常,实际上还是要看那些最终变成了蛋白
质才是真正有意义的
【在 c*********r 的大作中提到】 : 感觉有isoform是细胞里很普遍的行为,在一个Illumina的seminar上看到过一个印象深 : 刻的图,一个基因有一百多种证实存在的可变剪接。 : 有文章说人的95%的多外显子基因都有可变剪接。 : http://www.nature.com/ng/journal/v40/n12/full/ng.259.html : 这么多isoform,真想知道以后的研究该怎么做啊?
|