0%

rMATS是一款对RNA-Seq数据进行差异可变剪切分析的软件。其通过rMATS统计模型对不同样本(有生物学重复的)进行可变剪切事件的表达定量,然后以likelihood-ratio test计算P value来表示两组样品在IncLevel(Inclusion Level)水平上的差异(从公式上来看,IncLevel跟PSI的定义也是类似的),lncLevel并利用Benjamini Hochberg算法对p value进行校正得FDR值。rMATS可识别的可变剪切事件有5种,分别是skipped exon (SE)外显子跳跃,alternative 5' splice site (A5SS)第一个外显子可变剪切,alternative 3' splice site (A3SS)最后一个外显子可变剪切,mutually exclusive exons (MXE)外显子选择性跳跃和 retained intron (RI)内含子滞留,展现形式如下图(来自官网http://rnaseq-mats.sourceforge.net/index.html

rMATS_splicing

Read more »

《入门书籍》: Perl语言入门 ,Perl进阶

grep操作符

grep操作符可以通过表达式or块形式,将列表中的每个元素按照顺序依次取出,然后根据一定形式对其求值,最后将满足条件的元素赋值于某个列表。

在不了解grep操作符之前,如果想对列表中的元素进行处理提取符合要求的元素时,通常只能用foreach循环列表,但这样是不效率的做法。

Read more »

我们通过HTseq-count对hisat2比对后的bam文件进行计数后,会得到每个基因上比对上的reads数,也就是通常所说的count数。接着如果需要比较不同样本同个基因上的表达丰度情况,则需要对count数进行标准化,因为落在一个基因区域内的read counts数目一般可以认为取决于length of the gene(基因长度)和sequencing depth(测序深度),所以引申出两种标准化方法:RPKM和FPKM。前者是以每个reads作为一个单位,在单端测序中应用较多;而后者是以fragment作为一个单位,主要应用在双端测序后的分析。

Read more »

Sam格式在NGS中是一个不可或缺的格式,所以我们必须对其有一定了解。网上有很多文章对其有讲解,我当初也是看了那些文章入门的,当然最后只懂了每列是干嘛用的,但是具体每个标识代表什么含义却一知半解。虽然这不影响后续的学习以及相关的分析,但是对于这个一个这么重要的格式来说,这是不够的。

比如我们都知道SAM格式分为头部分和比对部分,那么头部分每个符号代表什么意思呢

Read more »

TCGA数据库除了有各种癌症的大样本数据外,还有很完善的临床数据,这点是其他数据库所缺少的,因此我们需要会从TCGA数据库中提取对应癌症的临床数据,然后利用这些数据来进行后续的分析(比如想知道某个基因的表达对病人的预后是否有影响)

Read more »

String是一个很好的蛋白互作网络数据库,其不仅包含了直接物理作用的互作关系,还包含了蛋白之间以间接作用的互作关系。除了有实验证据支持的数据外,还有整合其他数据库中的互作数据以及利用生物信息学预测获得的互作数据。

Read more »

众所周知lncRNA属于RNA中的非编码RNA,在转录调控中扮演者重要角色。并且现在听说lncRNA的研究也很火热,使用TCGA的数据对lncRNA的研究也是非常常见的需求。而我们如果想对TCGA的lncRNA进行定量则必须从TCGA RNA-Seq的表达量数据中提取出lncRNA的那部分数据。

Read more »

下载TCGA数据后,我们会发现新版的TCGA表达数据有6万个ENSG(ENSEMBL ID),听说旧版时是用gene symbol的,而且我也觉得有时gene symbol更能说明问题。如果用过Firehose下载的TCGA数据的话,会发现其是用gene id和gene symbol共同来表示表达数据的。如果是使用生信人的那款工具的话,其也是提供了ID转化功能,即把ENSG转化为gene symbol。

Read more »

之前对TCGA做了简单的了解,粗略了解了什么是TCGA,TCGA是做什么的等情况,接下来肯定是要学会如何下载TCGA数据,毕竟只有下载了数据才能接下去继续实战学习

官网常规下载

TCGA自2016年改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中,所以我们要先进网址https://portal.gdc.cancer.gov/

Read more »

一直以来想学下做词云,听说好多R包都能实现,所以就在网上搜了下,并将一个QQ生信交流群的近5个月的聊天记录下载下来,尝试的做了个词云,看看大家都是在讨论啥。。。

Read more »

如果在WGS上call variants的话,有不少软件以及相关流程,比如有名的GATK best practices。其实GATK也有一套对于RNA-Seq相关的call variants的流程方法,粗略一看其实跟WGS的差不多,但是有一些地方还是有差别的,我以一个小鼠的公共数据为例尝试一下,参考文章Calling variants in RNAseq

Read more »

gffcompare和gffread可以认为是专门开发出来用于处理gff格式文件的小工具。现在gff格式一般是用第三版gff3,以小鼠genecode上下载的gff文件为例,如下所示:

Read more »

第一次听说START这款比对软件是因为其是ENCODE计划的御用软件,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。

第二次听说则的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis这篇发表于2017年的文章,主要是针对转录组各个分析流程的不同分析工具的比较,里面针对mRNA的比对方法总结了基于参考基因组的三款比对软件:TopHat,STAR和HASAT2。其中讲到STAT相比较其他两款软件有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度

第三次听说也是由于恰好需要使用GATK对RNA-Seq Call Variants,因而在GATK刚好查到一篇教程Calling variants in RNAseq GATK 将reads比对至Reference上是采用STAR的STAR 2-pass模式,所以为了学习该教程,必须先学习如何使用STAR了

Read more »

首先这两款软件都是用于基于参考基因组的转录组组装,当然也可用于转录本的定量。前者于2016年的 protocol上发表的转录组流程HISAT, StringTie and Ballgown后被广泛使用,后者则是老牌的RNA分析软件了。在算法上来说Stringtie使用的是流神经网络算法,Cufflinks则是吝啬算法;从组装效果上来看Stringtie在灵敏度和准确度上表现较好,能够拼接出更完整、更准确的基因;从定量上来说,两者相差不大,但是cufflinks在一些特殊情况下会有异常的表达量;从运行速度上来说,Stringtie远远快了cufflinks了。。。

以上均为听说。。。

不仅以上的所述,最近的一篇Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis转录组各个分析流程对比的文章中也提到HISAT2+StringTie的搭配使用效果是在基于参考基因组转录本定量中最好的一个。所以我果断选择HISAT2+Stingtie来代替TopHat+Cufflinks来用于转录组的组装

这里主要是记下StringTie的使用,HISAT2则先略过了;当然还有一个Cuffcompare不得不提

Read more »

找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;如果是出现在外显子上的突变,想了解这些突变会对编码蛋白造成怎么样的影响,这些统统能用annovar解决,选择annovar的Gene-based annotation即可,可查看之前的笔记Annovar注释vcf-笔记

Read more »

肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。

Read more »

从事生信这个行业一年有余,在毕业前夕初知二代测序的蓬勃发展,作为生物硕士狗,决定将工作定为生信相关行业,有幸寻得工作,开启生信学习之旅。

在那时,我先翻遍所有招聘网站上关于生信相关岗位的介绍,发现其中必有两项技能要求:

  • 熟练掌握perl/python/R/等编程语言中的一种
  • 能在Linux上进行操作
Read more »