肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。 网址:https://portal.gdc.cancer.gov/
TCGA中数据类型主要有以下几种:
- Clinical:病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等
- mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量
- microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量
- Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
- Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
- Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
- Methylation:甲基化芯片测得的DNA甲基化数据
其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用
mRNA-Seq数据分为3种:
- HTSeq-Counts
- HTSeq-FPKM
- HTSeq-FPKM-UQ
前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
TCGA数据等级
- level1:原始数据
- level2:处理过的数据
- level3:经过分割、解释的数据
- level4:感兴趣的区域或概要
总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据
TCGA样本分类
除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本
一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细
具体可参考官网说明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
TCGA数据下载
官网有自带的下载方式:选中数据 -> 加入购入车 -> download -> cart -> 顺便也下载metadata
还有不少推荐使用Firehose:http://gdac.broadinstitute.org/ -> data-browse -> 然后按照自己需求下载样本数据即可
第一次接触TCGA数据库,初步整理一下,后续根据文献实践再总结分析过程了
本文出自于http://www.bioinfo-scrounger.com转载请注明出处