初步认识TCGA

肿瘤基因组图谱（TCGA）计划是由美国National Cancer Institute（NCI）和National Human Genome Research Institute（NHGRI）于2006年联合启动的项目，研究的癌症类型从最开始的多形性成胶质细胞瘤（GBM）到现在为止共有39种，涉及29种癌症器官，1万多个肿瘤样本，27万多份文件，当然其项目也将于2017年接近尾声。网址：https://portal.gdc.cancer.gov/

TCGA中数据类型主要有以下几种：

Clinical：病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等
mRNA：mRNA芯片或者RNA-Seq测得的mRNA表达量
microRNA：microRNA芯片或者microRNA-Seq测得的microRNA表达量
Copy Number：SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
Mutation：肿瘤组织测序结果相对参考基因组的核苷酸突变，包括插入和缺失等变化
Protein：蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
Methylation：甲基化芯片测得的DNA甲基化数据

其中mRNA-Seq，miRNA-Seq以及Methylation Array被广泛使用

mRNA-Seq数据分为3种：

HTSeq-Counts
HTSeq-FPKM
HTSeq-FPKM-UQ

前两个比较好理解，第三个跟第二个的区别在于不同的标准化方法，公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

TCGA数据等级

level1：原始数据
level2：处理过的数据
level3：经过分割、解释的数据
level4：感兴趣的区域或概要

总而言之，前面2个层级的数据一般是拿不到的，需要权限，一般也只有国外的PI才能申请到（听说的），我们一般拿到的open数据就属于那种已经标准化后的数据

TCGA样本分类

除了要知道数据等级外，我们还需要了解TCGA的样本分类，比如哪个是正常样本，哪个是肿瘤样本

一般我们可以看到样品名称如：TCGA-19-2619-10A，我们需要关注的是最后一位10A，一般来说01代表癌症样本，11代表癌旁样本。其实从01-09是tumor，癌症样本；10-29是normal，癌旁样本。只是其中分的比较细

具体可参考官网说明：https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

TCGA数据下载

官网有自带的下载方式：选中数据 -> 加入购入车 -> download -> cart -> 顺便也下载metadata

还有不少推荐使用Firehose：http://gdac.broadinstitute.org/ -> data-browse -> 然后按照自己需求下载样本数据即可

第一次接触TCGA数据库，初步整理一下，后续根据文献实践再总结分析过程了

本文出自于http://www.bioinfo-scrounger.com转载请注明出处