之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据 > 整合进cBioPortal的基因组数据类型包括体细胞突变,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表达,DNA甲基化,蛋白质富集,磷酸化蛋白富集。 cBioportal中文教程
最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下
cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集使用R语言的cgdsr包获取TCGA数据
这个R包主要提供以下几个函数进行查询数据:
加载cgdsr包,创建一个对象来连接cbioportal server
library(cgdsr) # Create CGDS object mycgds = CGDS("http://www.cbioportal.org/")
查询cbioportal包含的研究数据的study id
# Get list of cancer studies at server study_id <- getCancerStudies(mycgds)[,c(1,2)]
看看某个study id(如nsclc_pd1_msk_2018)的所包含的数据类型有哪些(如mutate data等)以及case类型
profiles <- getGeneticProfiles(mycgds, "nsclc_pd1_msk_2018") cases <- getCaseLists(mycgds, "nsclc_pd1_msk_2018")
最后看下特定一个基因的数据情况,如下是突变数据
res <- getProfileData(mycgds, c("CDK4","RARA"), "nsclc_pd1_msk_2018_mutations", "nsclc_pd1_msk_2018_all")
除了R的API端口外,BioPortal网站还提供了web的API端口,结果跟R的API大同小异
但是我最近在查看一篇文献的时候,发现其文章的全部数据是放在BioPortal上的,并且也在BioPortal上搜了其相关界面。但是BioPortal网站只提供了其数据的一些可视化分析结果,而我需要其文章上传的全部原始数据,而R和web的API端口也无法满足这需求
这时在网上搜寻方法的时候看到有人提到BioPortal的Github上可以下载到全部数据,因此在Github上发现果然有相关方法:https://github.com/cBioPortal/datahub
The datahub is a repository for store data only. It contains staging files which are pre-validated and can be loaded directly into the cBioPortal
但是其是用git-lfs来管理这些文件的
Git LFS 是 Github 开发的一个 Git 的扩展,用于实现 Git 对大文件的支持
所以我们需要先安装git lfs先(以ubuntu为例),依次输入命令就行;其主要步骤是先将安装Git,然后将git-lfs放到你的apt源里,然后在用apt来安装git-lfs,最后显示Git LFS initialized.
即说明安装成功
sudo apt-get install git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
接着用git将datahub仓库克隆到服务器上
git clone https://github.com/cBioPortal/datahub.git
cd datahub
git lfs install --local --skip-smudge
最后可以是通过git-lfs将study id的相关数据都拉下来(注:这个stduy id是要在datahub/public里有的才行)
git lfs pull -I public/nsclc_pd1_msk_2018
cd public/nsclc_pd1_msk_2018/
最后可以看到数据都下载到nsclc_pd1_msk_2018
文件夹中了,包含了完整的数据,非常好用,有需求的可以试试哈
anlan@ubuntu:~/datahub/public/nsclc_pd1_msk_2018$ ls -lh
总用量 2.3M
drwxrwxr-x 2 anlan anlan 4.0K 9月 22 00:00 case_lists
-rw-rw-r-- 1 anlan anlan 18K 9月 22 00:03 data_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan 27K 9月 22 00:03 data_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan 261K 9月 22 00:03 data_CNA.txt
-rw-rw-r-- 1 anlan anlan 24K 9月 22 00:03 data_fusions.txt
-rw-rw-r-- 1 anlan anlan 6.6K 9月 22 00:03 data_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan 2.2K 9月 22 00:03 data_gene_panel_impact341.txt
-rw-rw-r-- 1 anlan anlan 2.6K 9月 22 00:03 data_gene_panel_impact410.txt
-rw-rw-r-- 1 anlan anlan 2.9K 9月 22 00:03 data_gene_panel_impact468.txt
-rw-rw-r-- 1 anlan anlan 638K 9月 22 00:03 data_mutations_extended_mskcc.txt
-rw-rw-r-- 1 anlan anlan 637K 9月 22 00:03 data_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan 147 9月 22 00:00 meta_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan 145 9月 22 00:00 meta_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan 273 9月 22 00:00 meta_CNA.txt
-rw-rw-r-- 1 anlan anlan 229 9月 22 00:00 meta_fusions.txt
-rwxrwxr-x 1 anlan anlan 152 9月 22 00:00 meta_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan 284 9月 22 00:00 meta_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan 375 9月 22 00:00 meta_study.txt
-rw-rw-r-- 1 anlan anlan 618K 9月 22 00:03 nsclc_pd1_msk_2018_data_cna_hg19.seg
-rw-rw-r-- 1 anlan anlan 229 9月 22 00:00 nsclc_pd1_msk_2018_meta_cna_hg19_seg.txt
本文出自于http://www.bioinfo-scrounger.com转载请注明出处