由买买提看人间百态

topics

全部话题 - 话题: fasta
1 (共1页)
k***i
发帖数: 62
1
来自主题: Biology版 - 遇到极品labmate该怎么办?
我们实验室是做计算生物学的,也就是说,不会编程就没办法活。可是我们实验室偏偏
有这么一个人,我们叫他极品君好了,因为他不学无术,光靠着拍老板马屁,混了三年
,什么都没有做,不要说写程序了,连unix下面基本的命令都不会用。本来大家各做各
的课题,这个人跟我也没什么关系,可是最近发生的一件事,让我觉得像吃了一个苍蝇。
我自己一直在做一个课题,做了两年了,最近好不容易有了点结果写了篇文章,一作是
我,通讯作者是老板,并没有其他人。正在改,准备投。结果上个月的组会上,老板忽
然当着全组人的面,对极品君说:“你去再找几个数据让她跑一下,然后你就可以做
middle author了。”我听了犹如晴天霹雳。这个人从来没有帮我做过任何事情!而且
更荒谬的是,老板只叫他找10个数据(就是10个fasta file!),然后就可以不劳而获
了。
之后我马上私下找老板沟通,表示极品君完全没有contribution,不能做author。老板
只非常含糊地说,要看最后的贡献而定。还说,他想帮助一下极品君,让他“可以快点
进入做研究的正轨”。
然后改paper又改了几个礼拜。昨天在组会上讨论我的paper的时... 阅读全帖
C*********m
发帖数: 213
2
来自主题: Biology版 - blastall 2.2.25的一个bug
不知道版上各位有没有碰到过:
blastall -p blastp -d wwpdb -e 0.01 -F F -m 8 -i a.fasta | awk '$3 > 90'
wwpdb 是pdb 里所有蛋白序列,ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_
seqres.txt,a.fasta 是 NP_113671.3 序列 (862 a.a),blast 2.2.15给出8个结果,
blast2.2.25只给出 7个,缺失的那个2p4r_T 只有25 a.a, 好像是 -F F 在 2.2.25版
本里不起作用.

发帖数: 1
3
来自主题: Biology版 - GTex portal dataset download
On your computer with web browser
1. go to https://www.gtexportal.org/home/datasets
2. You will be asked to login, so login with your google account
3. open developer console, run
"gapi.auth2.getAuthInstance().currentUser.get().getAuthResponse().id_token"
4. Copy this token
On your Linux command line
5. run the following command to obtain the URL for each of the file, replace
XXX with the token
curl -X GET https://gtexportal.org/rest/v1/admin/file_download?objectPath=
gtex_analysis_pilot_v3/rna_... 阅读全帖

发帖数: 1
4
来自主题: Biology版 - GTex portal dataset download
On your computer with web browser
1. go to https://www.gtexportal.org/home/datasets
2. You will be asked to login, so login with your google account
3. Randomly choose a small file to download (such as "GTEx_Analysis_v7_
Annotations_SubjectPhenotypesDD.xlsx"), this is to trigger the
authentication process
4. open developer console, run
"gapi.auth2.getAuthInstance().currentUser.get().getAuthResponse().id_token"
5. Copy this token
On your Linux command line
6. run the following commands to obtain ... 阅读全帖
h*****5
发帖数: 566
5
古代的爱尔兰
古希腊和古罗马的著作家以及教会的神甫们,关于爱尔兰都讲述得很少。
但是还存在着相当丰富的地方文献,虽然在十六世纪和十七世纪时有许多爱尔兰的手稿
已经毁于战火。这些文献包括短诗、文法、辞典、年表和其他历史著作以及法律汇编。
不过,除去极少数的例外,所有这些至少包括了八世纪至十七世纪这一时期的文献,都
只是手写本。用爱尔兰语出版书籍是不久以前才开始的,恰好是在这种语言已开始消亡
的时候。因此,原有的丰富材料只有极小的一部分可以被利用。
在年表中最重要的是“提格尔纳赫神甫年表”(该神甫于1088年去世),“奥尔斯脱年
表”,特别是“四教长年表”。“四教长年表”是1632—1636年圣芳济派教士迈克尔·
奥克莱里领导其他三个seanchaidhes(编年史家)在多尼果耳修道院编成的,他们所根
据的材料现在几乎已经完全散失。这部带有批注并附有英译文的年表是奥顿诺凡于1856
年据现在还保存着的多尼果耳修道院原手稿出版的。[注:由约翰·奥顿诺凡博士出版
并附有英译文的“四教长编爱尔兰王国年表”七卷集,1856年都柏林第2版四开本(《
Annala Rioghachta Eirea... 阅读全帖
e****e
发帖数: 3450
6
来自主题: SanFrancisco版 - 找熟悉用mac 编程的帮忙
我按这个readme来的
Software Requirements
=====================
1. GCC is required to compile most tools.
2. FASTA-Clipping-Histogram tool requires Perl, the "PerlIO::gzip",
"GD::Graph::bars" modules.

Installing the perl modules can be accomplised by running:
$ sudo cpan 'PerlIO::gzip'
$ sudo cpan 'GD::Graph::bars'

3. FASTX-Barcode-Splitter requires the GNU Sed program.

4. FASTQ-Quality-Boxplot and FASTQ-Nucleotides-Distribution requires the
'gnuplot' program.
Installation
=====
e*******o
发帖数: 4654
7
来自主题: SanFrancisco版 - 金门大桥过桥费求助
Costco 买一个fasta track 能追溯一个月 25刀
含30 过路费 多省事

..
c*****a
发帖数: 179
8
来自主题: Biology版 - mega4求助
dnaman 和dna star可以么?
这两个我倒是用过
sequencing 结果很大。上百兆的fasta文件
i*****l
发帖数: 51
9
来自主题: Biology版 - mega4求助
上百兆的fasta文件?别吓我,那是什么序列啊?如果是N多条测序结果,比如CHIP-SEQ
这样的结果的话,还是找专门的软件或者专业的统计人员去分析
A*****n
发帖数: 243
10
来自主题: Biology版 - mega4求助
下个单机版的blast吧,或者尝试一下其他序列比对软件,比如bfast或者bwa。
反正都需要自己跑一些程序。上百兆的fasta,应该也不到1M条的序列。
你这里只是要和单个基因比较,应该也不需要太长的时间。
(相对和NR或者全基因组的比对而言)
c*****a
发帖数: 179
11
来自主题: Biology版 - mega4求助
一个测序结果。做成了一个fasta文件。很多个contig并在一起那种

SEQ
k*******3
发帖数: 1909
12
来自主题: Biology版 - NCBI homo sapien (human) genome sequence
在NCBI下载了human的Assembled_chromosomes
ftp://ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/Assembled_chromosomes/
可以看到对于每个染色体,都有三种fasta file,比如染色体20,有
hs_alt_Celera_chr20.fa
hs_alt_HuRef_chr20.fa
hs_ref_GRCH37_chr20.fa
这三种file里面的序列还不一样,请问是怎么回事?究竟哪个是human的第20条染色体的sequence呢?
谢谢。
y******8
发帖数: 1764
13
来自主题: Biology版 - 请教遗传学问题,谢谢!
Did you check the raw files from sequencer? Or you just read the FASTA
results.

吗?
z**********8
发帖数: 766
14
来自主题: Biology版 - 请教遗传学问题,谢谢!
再次谢谢各位!也呼唤做过这方面的兄弟出来!
我做这个之前请教过做这方面的遗传牛人,一般测序病人样本是不需要做克隆的。因为
工作量太大。
关于测序结果,我只有FASTA results.没有running gel的raw data。
这些都不是问题,所以我想请教遗传大牛,一般只有搞突变这方面的才更有经验。
我用的样本是经过抗体瓷珠selected cells,不是tissue。
同一样本是指从一个病人的这些selected cells中提的RNA后RT所得的cDNA,三次PCR指
从同一管cDNA先后进行PCR,然后去测序。不是三次RT。
z**********8
发帖数: 766
15
来自主题: Biology版 - 请教遗传学问题,谢谢!
谢谢各位参与讨论!
我用我浅薄的遗传学知识为大家解释一下突变的问题.
大家说的PCR致突变大都是指做克隆时发生的点突变,做克隆时PCR酶可以导致点突变,连
接后单克隆挑出再提质粒后再测序,如果有突变,大多是这种情况.
寻找病人的基因突变不是这样的,因为每个病人做克隆是不现实的,而且很多突变不是纯
合,杂合突变如果去做克隆,没法选择挑几个克隆才合理或有可能的得到那个突变.所以
筛选病人突变时,不能用克隆的方法,而多用PCR产物直接测序,或者为了更省钱,设计好
PCR再酶切的方法去筛.
我因为是用PCR产物直接测序,这是个混合物,即时有些bp突变,不可能所有片段的那个bp
都突变,所以这就保证只有真正的突变才能被测序出来.因此,质疑PCR的朋友请不必再回
帖了.
回到问题,我有些奇怪的猜测,希望遗传朋友或懂测序的朋友指点.
1)有无可能有些肿瘤细胞出现三倍体? 有些细胞仍正常.
2)若突变细胞只是所有细胞一部分,会否导致缺失突变被测序时,两条链高低不等? 可相
差几倍吗? 一般的概念是等峰,我有些突变是这样.可还有些总是测序FASTA峰值差很多.
是否是因为突变的细胞比例低所致?
谢谢!
C*******e
发帖数: 4348
16
Jpred可以
http://www.compbio.dundee.ac.uk/www-jpred/
点“Advanced”,然后在“select type of input”里面选“batch”
上传sequence文件
fasta格式
不过一次200个sequence
不知道你能不能凑合用
a*****y
发帖数: 277
17
来自主题: Biology版 - How to use ClustalW2 at EBI...?
fasta format...
e*****t
发帖数: 642
18
可能这个格式节省一点空间吧,要转成fasta,还得用软件转,叫twobittofa.在Linux
下 make的时候又说library找不到,不知道为啥弄这么复杂。
哪位大虾能发个链接,有rat whole genome seq的。多谢了。
y****n
发帖数: 8
19
举一列,如可以不用打开大文件而直接查看又多少条序列:
>less **.fasta | grep ">" | wc
K****n
发帖数: 5970
20
还是说fasta是一种内容很可以predict的文件?
o********r
发帖数: 775
21
Ft...为啥用这么多|
grep -c ">" **.fasta
z*********8
发帖数: 1203
22
这个软件是免费的,你下再下来后, 把你的序列全部以fasta形式load进去,然后里面
附带的clustal w会给你做sequence alignment,然后会generate一个meg形式的文件。
用这个文件就可以generate phylogenetic tree。至于每个family的三角形,你现在把
phylogenetic tree做出来,然后我再给你讲,不然空讲听不明白的。选算法的时候可
以选neigbour joining,不要选maximum likelihood,那个算的时间很长的,如果很多
序列的话很可能要占用计算机n久还有可能算不完你计算机就crash了。
m******i
发帖数: 73
23
虽然我的问题都很初级, 太感谢您的解答了.
探针设计,看来很复杂的东西, 比如说我想看1000个细菌, 如果
已知到他们的序列 (每个大概 3-400碱基序列),这种情况下,一般
您觉得需要多少个探针呢? 一般需要几个探针来确定一个细菌呢?
如果已知序列, 有没有什么软件,可以优化探针的设计?
另外的话,如果我们做454 pyrosequencing, 测序中心
给我的数据是什么格式的? 是fasta还是其他的呢?
是不是也会给出primer和barcode 的序列?
如果这些都有了, 有没有什么软件能比较样品组之间的细菌种类和强度的差别.
我听说有个东西叫Mothur,不知是干这个用的吗?
很抱歉,太多的问题,好不容易逮着您这个懂行的.

RNA
a***e
发帖数: 1010
24
来自主题: Biology版 - transposon database
请问 那里能找到 transposon序列文件 .fasta格式的
多谢多谢
l**********1
发帖数: 5204
25
linker-based PCR
plus
iMapper soft:
//www.ncbi.nlm.nih.gov/pubmed/18974167
//geocachingsoftware.com/imapper.html
more details
please to to E-Book
Chapter 2:
its link:
FTP://ftp.sanger.ac.uk/pub4/theses/kong/chapter2.pdf
citation:
>Based on these expectations, a web-based server called iMapper (Insertional
Mutagenesis Mapping and Analysis Tool) was developed for the efficient
analysis of insertion site sequence reads against vertebrate and
invertebrate Ensembl genomes. Taking linker-based PCR se... 阅读全帖
c********b
发帖数: 363
26
来自主题: Biology版 - 求教:Deep sequencing的data convert
最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
u*********1
发帖数: 2518
27
来自主题: Biology版 - 求教:Deep sequencing的data convert
我觉得你要解释更清楚点这到底是什么数据
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
c********b
发帖数: 363
28
来自主题: Biology版 - 求教:Deep sequencing的data convert
不好意思,是小RNA的deep sequencing (不是genome sequence),后面的number是表
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。

ref
u*********1
发帖数: 2518
29
来自主题: Biology版 - SNP 分析请教
Sanger sequencing的话得到的都是.ab1的文件吧
其实我一直有个问题,如何把.ab1 file转化成fasta/fastq格式然后可以按照NGS的
方法来做?
如果只找比如罕见突变,我自己用的program叫novoSNP,觉得还不错
如果要看LD啥的,估计就是那个broad的haploview吧,我自己也没做过,不确定

),
F*****d
发帖数: 23
30
GSE38379 has Supplementary file, probably contains bed file for peaks.
For raw data, you need to re-analyze the data. Basic steps include:
convert SRA to fasta, map to genome, find peaks, map peaks to genes, perform
motif discovery, etc.
There are many software packages (almost all on linux), I recommend Homer,
as it covers all steps including motif analysis.
Alternative, if your lab has funding for this, you can buy analysis service,
e.g.
http://goo.gl/k389Yr
h*****t
发帖数: 1226
31
来自主题: Biology版 - 遇到极品labmate该怎么办?
让他找100个fasta. :)
不过这其实和你说的JP Labmate没什么关系, 其实是你老板有点JP.

蝇。
m******5
发帖数: 1383
32
非常感谢!!!
能直接上传的是BED文件么?
如果是FASTA格式的源文件要用什么软件读呢?
大家用本机的类似CisGenome这样的软件能读得开么?
d****7
发帖数: 109
33
用UCSC genome browser
BED文件也得看是什么bed文件,如果是peak calling出来的bed文件,很小,直接上传
就行,但是如果是mapped reads的话,没法上传也没法看
如果是mapped reads的话,一般用bedtools把它转成bedGraph,再用bedGraphTobigWig
转成bigwig(转成bigwig的好处是loading快,只load当前窗口区域的data,而不是整个
file),如果测序比较深的话,bigwig也比较大,我们的chip-seq出来的bigwig一般都
好几百MB,没法上传,给自己机子架一个ftp或者http,把链接贴上去就行
fasta或者fastq应该是map之前的raw reads,对与chip-seq来说,看的事map之后的
signal track。想看raw reads的quality,有好多软件,fastqc是比较受欢迎还比较傻
瓜的一个,R里面好像也有一些能读raw reads的package
cisgenome可以,而且支持windows,还有图形界面,不过如果只是想看看track的话,
IG... 阅读全帖
y**********n
发帖数: 478
34
我觉得现在一个重要的事情是拿到宝宝相关基因的序列,有三种情况:
1.基因上所有位点都跟正常人的一样,这样基本排除了这个基因
2.有些位点跟正常人不一样,但跟不在hgmd已知致病突变一样 -- 症状是这个基因导
致的可能性很大
2.有些位点跟正常人不一样,但跟已知致病突变也不一样 -- 这些突变有可能是未知
的致病突变,也可能是正常SNP
几个有用的连接:
正常SLC25A13序列 - NM_014251
http://www.ncbi.nlm.nih.gov/nuccore/171906609?report=fasta
>gi|171906609|ref|NM_014251.2| Homo sapiens solute carrier family 25 (
aspartate/glutamate carrier), member 13 (SLC25A13), transcript variant 2,
mRNA
AATGGGCGGGCAGCATCCACATGACCCGCGCCGGCGGGAGGGCGTGGGGAGGCAGGCCAGGAACGCACGC
TGCCTGGCCGTATCGC... 阅读全帖
h******y
发帖数: 351
35
http://genome.ucsc.edu/cgi-bin/hgBlat?command=start
Put your sequence in FASTA format, for example
>primer1
AGCTACAGCTACTAGCATCGACTGCGATG
>Primer2
ATGACTAGCTGGATAGCTAGCTACGATCA
>primer3
...
Make sure the primer sequence is longer than 20nt. So far this is the faste
st and most efficienct way I know. You can easily find out where the primer
s locate and whether there is any non-specific binding sites.
For pimer sequence shorter than 20nt, create four sequences by adding [AGCT]
to make it to 20n... 阅读全帖
s******s
发帖数: 13035
36
来自主题: Biology版 - 有没有tumor CNA的统计数据
这玩意儿是个大杂烩,垃圾多,有用的东西也多。
比如有GAF,有一堆fasta,有barcode和uuid的mapping文件。
我还看的,有clinical elements CDE的dictionary, 还有些xsd的估计大家不关心。
g*********3
发帖数: 177
37
来自主题: Biology版 - 请教个DNA相关的实验问题
这种软件写了发不出去吧。
你这个问题shell script就应该能解决(repeat的primer可能不太好弄):
把human genome fasta下载下来,然后准备好你的所有SNP的bed file,用
fastafrombed(类似这样的工具太多了)找出序列,直接在SNP左右加减比如300bp,随
机从两端选取20bp,countGC content。这样就足够了。
找个周围做bioinfo的,几分钟能帮你解决。

发帖数: 1
38
sequence alignment的话MEGA就可以做,fasta输入。
h**********r
发帖数: 671
39
http://www.rgenome.net/cas-designer/
http://www.rgenome.net/cas-offinder/
Target Sequence
Insert any sequence(s) where you want to search for RGEN targets (raw
sequence or FASTA format, maximum 1000 chars)
Send request for a new organism
I didn't use it before. Hopefully it can help you.
y****i
发帖数: 4109
40
来自主题: Biology版 - 生物信息 选python or perl
习惯了用perl ,不过如果都没学过建议学python.
要学会多利用,修改别人写好的scripts。
感觉大部分工作都是可以利用别人写的东西。然后一些awk,grep,sed之类的。
Biopython bioperl 从来没学过,但是要知道怎么安装这些模块,否则一些软件用不起
来。操控fasta/q 用li heng 的seqtk可以解决大部分问题。
说实话生信分析,如果不是做算法做软件的话,对编程要求不高,对生物学知识要求反
而高,所以说还是一个大坑。但学好python和R是打好了数据分析的基础...你懂的...
S****6
发帖数: 214
41
来自主题: Biology版 - Heng Li长得就像个天才码农啊
抓紧过来和老李合一个影。。
谢谢你的工作。
我从2007年开始接触二代测序数据分析。那时候这个Solexa 技术刚刚商业化,被
Illumina 公司收购。
那时候用它自带的ELAND。还自己试着用过BLAT和FASTA,后者主要是作为自己写的寻找
indel 工具的一部分。
再往后就是 BWA, BOWTIE, novoalign
g*****x
发帖数: 3283
42
来自主题: Biology版 - trypsin cut
你说search fasta的时候?这个一般要设大一点,2。
trypsin的specificity和performance根本没那么好
t*****w
发帖数: 254
43
来自主题: Statistics版 - 请问面试 R 应该怎么准备?
When I had my job interview, they always tested my SAS skill.However I use R
all the time. To help your preparation, read my R codes to see how much you
can understand it.
%in%
?keyword
a<-matrix(0,nrow=3,ncol=3,byrow=T)
a1 <- a1/(t(a1)%*%spooled%*%a1)^.5 #standadization in discrim
a1<- a>=2; a[a1]
abline(h = -1:5, v = -2:3, col = "lightgray", lty=3)
abline(h=0, v=0, col = "gray60")
abs(r2[i])>r0
aggregate(iris[,1:4], list(iris$Species), mean)
AND: &; OR: |; NOT: !
anova(lm(data1[,3]~data1[,1... 阅读全帖
h**n
发帖数: 981
44
来自主题: Paint_ball版 - vlocity到了
looks like a nice feeder, the review is pretty nice as well. Awesome deal as
well, but consider the shipping bring it to $50+ for me and my cheap gun
doesn't need that much upgrade. I decide to go with a "Like New In Box"
fasta on pbnation for $25 shipped. Will get it soon to see how it treat me.
Upload a feed test when you get a chance. Should be fun.
c******g
发帖数: 19294
45
来自主题: Paint_ball版 - vlocity到了
fasta is pretty good too
i paid $40 for vlocity, and i bought something else so i got free shipping

as
.
1 (共1页)