一般来说,我们现在平时用的最多的数据库应该算NCBI和Ensembl了,所以我们应该对其的一些名词要有一定的了解,如: #### NCBI
Gnen ID即Entrez gene ID,其是NCBI给予不同基因的一个代号(标识符),用于对不同数据库进行联合搜索的搜索引擎,也被其他众多的数据库使用。Entrez gene ID就是一系列数字,比较好辨识,但一般都记不住
Gene Symbol相当于基因的官方名字,如TP53这样的
还有一些RefSeq Accession Number:
RNA的ID,如NM_(mRNA),NR_(RNA),XM_(mRNA, Predicted model),XR_(RNA, Predicted model)
Protein的ID,如AP_(Annotated on AC_ alternate assembly),NP_,YP_(Associated with an NM_ or NC_ accession),XP_(Predicted model, associated with an XM_ accession),XP_(Predicted model, annotated on NZ_ genomic records)
还有AC_(Genomic, Complete genomic molecule, usually alternate assembly),NC_(Genomic, Complete genomic molecule, usually reference assembly),NG_(Genomic, Incomplete genomic region)
Ensembl
Ensembl ID主要由五部分组成:
- ENS:这个开头表示这个是Ensembl id
- 物种:也是几个英文字母,MUS代表小鼠,如果是人则为空
- 类型:E代表exon,FM代表Ensembl protein family,G代表gene,GT代表gene tree,P代表protein,R代表regulatory feature,T代表transcript
- 一系列数字
- 版本号
其实只要注意前面3个部分就行了
两者的转换
可以用R包,如org.Hs.eg.db
也可以用脚本,这时就要借助一些NCBI的基因相关文件,如gene2ensembl,gene2accession,gene_info
下载地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
比如gene2ensembl文件 第一列:物种 ID
第二列:gene entrez ID
第三列:Ensembl_gene ID
第四列:RNA的NCBI ID 第五列:RNA的Ensembl ID 第六列:Protein的NCBI ID 第七列:Protein的Ensembl ID
gene2accession文件
主要存储了每个物种下,Gene ID对应的RNA、Protein以及genomic的信息
gene_info文件 主要存储gene的描述信息,当然包括gene id对应的gene symbol
参考来源:http://www.biotrainee.com/thread-411-1-1.html
本文出自于http://www.bioinfo-scrounger.com转载请注明出处