做个笔记,记录下KEGG的BRITE和PATHWAY
KEGG BRITE is a collection of manually created hierarchical text (htext) files capturing functional hierarchies of various biological objects, especially those represented as KEGG objects.(依据KEGG数据库,通过人工收集,对生物层面进行分级注释的数据,其实也就是一个有层级关系的文件) BRITE table files are now used to focus more on such multi-column attributes rather than hierarchy relationships.
KEGG BRITE incorporates many different types of relationships including:
- Genes and Proteins
- Compounds and Reactions
- Drugs
- Diseases
- Organisms and Cells
http://www.kegg.jp/kegg/brite.html
KEGG PATHWAY is a collection of manually drawn pathway maps representing our knowledge on the molecular interaction, reaction and relation networks for(主要于展现分子间作用、反应以及关系网络,由以下七大部分组成):
- Metabolism
- Genetic Information Processing
- Environmental Information Processing
- Cellular Processes
- Organismal Systems
- Human Diseases
- Drug Development
http://www.kegg.jp/kegg/pathway.html
不管是KEGG BRITE还是KEGG PATHWAY都在持续更新中,如:
http://www.kegg.jp/kegg/docs/upd_kegg.html#brite
http://www.kegg.jp/kegg/docs/upd_kegg.html
以上这么多信息,一般我们都不会全部用到。一般的用法我们只想关注我们某个基因处于哪个KEGG PATHWAY,再者这个通路又是属于哪个生物学功能,over了。
比如我有一个gene对应的K号为K11251
那么我可以在http://www.kegg.jp/dbget-bin/www_bget?K11251查到:
其所在通路有
> ko04217 Necroptosis
ko05034 Alcoholism
ko05322 Systemic lupus erythematosus每个通路所属的生物学功能(KEGG Orthology)
>04217 Cellular Processes, Cell growth and death, Necroptosis
05322 Human Diseases,Immune diseases,Systemic lupus erythematosus
05034 Human Diseases,Substance dependence,Alcoholism
当手头上不止一个gene的情况下时,则需要进行批量提取信息
需要准备两个文件:
如果我们只关系pathway maps的KEGG Brite信息,那么只需要进入http://www.kegg.jp/kegg-bin/get_htext?htext=ko00001,然后
Download htext
,获得ko00001.keg
文件,里面有所有K号对应的KEGG PATHWAY信息例如A Metabolism表示下面的的pathway均属于Metabolism大类,同理B Overview表示下面的pathway属于Metabolism下的一个Overview小类,依次往下将pathway进行了分类
例如C 01200 Carbon metabolism表示一个叫Carbon metabolism的通路ko01200
例如D K00844 HK; hexokinase [EC:2.7.1.1]表示名为HK的K00844,其描述信息为hexokinase [EC:2.7.1.1],是一种酶。
因此我们只要将上述文件用脚本进行解析,即可获得所有的K号所对应的kegg maps信息,当然我们也可以找特定物种的,例如http://www.kegg.jp/kegg-bin/get_htext?htext=hsa00001,下载人类
hsa00001.keg
文件。里面除了K号与pathway对应信息外,还有K号所对应的gene id。这点很有用!第二个文件则是对kegg pathway的生物学功能注释信息文件(仅对通路),那么只需要进入http://www.kegg.jp/kegg-bin/get_htext?br08901.keg,然后
Download htext
,获得br08901.keg
文件,里面有kegg pathway对应的功能注释信息例如
A<b>Cellular Processes</b> B Transport and catabolism C 04144 Endocytosis
则表示名为Endocytosis通路ko04144的生物学功能为Cellular Processes下的Transport and catabolism功能
因此我们只要知道通路的ko号,则可以轻易知道其所属的功能
如要批量注释,则需要进行脚本将上述两个文件整合在一起即可。当然最重要的一点是,要先知道所有gene所对应的K号,这则需要通过其他方法才能获得,比如kegg的KOALA或者KAAS等工具了。
PS. KAAS是一个web式自动注释K号工具,如果有KEGG数据库的话,可以本地化的哦,可惜现在想要获得KEGG数据需要收费才行咯
本文出自于http://www.bioinfo-scrounger.com转载请注明出处