NCBI/Ensembl ID的转换

一般来说，我们现在平时用的最多的数据库应该算NCBI和Ensembl了，所以我们应该对其的一些名词要有一定的了解，如： #### NCBI

Gnen ID即Entrez gene ID，其是NCBI给予不同基因的一个代号（标识符），用于对不同数据库进行联合搜索的搜索引擎，也被其他众多的数据库使用。Entrez gene ID就是一系列数字，比较好辨识，但一般都记不住

Gene Symbol相当于基因的官方名字，如TP53这样的

还有一些RefSeq Accession Number：

RNA的ID，如NM_(mRNA)，NR_(RNA)，XM_(mRNA, Predicted model)，XR_(RNA, Predicted model)

Protein的ID，如AP_(Annotated on AC_ alternate assembly)，NP_，YP_(Associated with an NM_ or NC_ accession)，XP_(Predicted model, associated with an XM_ accession)，XP_(Predicted model, annotated on NZ_ genomic records)

还有AC_(Genomic, Complete genomic molecule, usually alternate assembly)，NC_(Genomic, Complete genomic molecule, usually reference assembly)，NG_(Genomic, Incomplete genomic region)

Ensembl

Ensembl ID主要由五部分组成：

ENS：这个开头表示这个是Ensembl id
物种：也是几个英文字母，MUS代表小鼠，如果是人则为空
类型：E代表exon，FM代表Ensembl protein family，G代表gene，GT代表gene tree，P代表protein，R代表regulatory feature，T代表transcript
一系列数字
版本号

其实只要注意前面3个部分就行了

两者的转换

可以用R包，如org.Hs.eg.db

也可以用脚本，这时就要借助一些NCBI的基因相关文件，如gene2ensembl，gene2accession，gene_info

下载地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

比如gene2ensembl文件第一列：物种 ID
第二列：gene entrez ID
第三列：Ensembl_gene ID
第四列：RNA的NCBI ID 第五列：RNA的Ensembl ID 第六列：Protein的NCBI ID 第七列：Protein的Ensembl ID

gene2accession文件
主要存储了每个物种下，Gene ID对应的RNA、Protein以及genomic的信息

gene_info文件主要存储gene的描述信息，当然包括gene id对应的gene symbol

参考来源：http://www.biotrainee.com/thread-411-1-1.html

本文出自于http://www.bioinfo-scrounger.com转载请注明出处