一直以来想学下做词云,听说好多R包都能实现,所以就在网上搜了下,并将一个QQ生信交流群的近5个月的聊天记录下载下来,尝试的做了个词云,看看大家都是在讨论啥。。。
GATK calling variants in RNA-seq
Symbols count in article: 4.3k Reading time ≈ 4 mins.
如果在WGS上call variants的话,有不少软件以及相关流程,比如有名的GATK best practices。其实GATK也有一套对于RNA-Seq相关的call variants的流程方法,粗略一看其实跟WGS的差不多,但是有一些地方还是有差别的,我以一个小鼠的公共数据为例尝试一下,参考文章Calling variants in RNAseq
gffcompare和gffread
Symbols count in article: 4k Reading time ≈ 4 mins.
gffcompare和gffread可以认为是专门开发出来用于处理gff格式文件的小工具。现在gff格式一般是用第三版gff3,以小鼠genecode上下载的gff文件为例,如下所示:
比对软件STAR的简单使用
Symbols count in article: 3.5k Reading time ≈ 3 mins.
第一次听说START这款比对软件是因为其是ENCODE计划的御用软件,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。
第二次听说则的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis这篇发表于2017年的文章,主要是针对转录组各个分析流程的不同分析工具的比较,里面针对mRNA的比对方法总结了基于参考基因组的三款比对软件:TopHat,STAR和HASAT2。其中讲到STAT相比较其他两款软件有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度
第三次听说也是由于恰好需要使用GATK对RNA-Seq Call Variants,因而在GATK刚好查到一篇教程Calling variants in RNAseq 将reads比对至Reference上是采用STAR的STAR 2-pass模式,所以为了学习该教程,必须先学习如何使用STAR了
转录组的组装Stingtie和Cufflinks
Symbols count in article: 5.1k Reading time ≈ 5 mins.
首先这两款软件都是用于基于参考基因组的转录组组装,当然也可用于转录本的定量。前者于2016年的 protocol上发表的转录组流程HISAT, StringTie and Ballgown后被广泛使用,后者则是老牌的RNA分析软件了。在算法上来说Stringtie使用的是流神经网络算法,Cufflinks则是吝啬算法;从组装效果上来看Stringtie在灵敏度和准确度上表现较好,能够拼接出更完整、更准确的基因;从定量上来说,两者相差不大,但是cufflinks在一些特殊情况下会有异常的表达量;从运行速度上来说,Stringtie远远快了cufflinks了。。。
以上均为听说。。。
不仅以上的所述,最近的一篇Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis转录组各个分析流程对比的文章中也提到HISAT2+StringTie的搭配使用效果是在基于参考基因组转录本定量中最好的一个。所以我果断选择HISAT2+Stingtie来代替TopHat+Cufflinks来用于转录组的组装
这里主要是记下StringTie的使用,HISAT2则先略过了;当然还有一个Cuffcompare不得不提
SnpEFF注释vcf-笔记
Symbols count in article: 3.1k Reading time ≈ 3 mins.
找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;如果是出现在外显子上的突变,想了解这些突变会对编码蛋白造成怎么样的影响,这些统统能用annovar解决,选择annovar的Gene-based annotation即可,可查看之前的笔记Annovar注释vcf-笔记
Linux的文本处理工具(二)
Symbols count in article: 1k Reading time ≈ 1 mins.
Linux的文本处理工具(一)
Symbols count in article: 2.6k Reading time ≈ 2 mins.
在linux上操作时,熟悉几个shell命令是必不可少的技能,比如grep,sed,sort等。下面以几个例子来说明几种常见的用法
初步认识TCGA
Symbols count in article: 1.3k Reading time ≈ 1 mins.
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
Annovar注释vcf-笔记
Symbols count in article: 3.1k Reading time ≈ 3 mins.
找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;
心有感而小结
从事生信这个行业一年有余,在毕业前夕初知二代测序的蓬勃发展,作为生物硕士狗,决定将工作定为生信相关行业,有幸寻得工作,开启生信学习之旅。
在那时,我先翻遍所有招聘网站上关于生信相关岗位的介绍,发现其中必有两项技能要求:
- 熟练掌握perl/python/R/等编程语言中的一种
- 能在Linux上进行操作
在Ubuntu升级R版本
Ubuntu版本:14.04
升级R 3.1 至3.4
打开软件源文件,添加CRAN源
sudo vim /etc/apt/sources.list ##deb http://mirrors.tuna.tsinghua.edu.cn/cran/bin/linux/ubuntu/ trusty/
trusty/是根据你的ubuntu的版本号而改变的,比如14.04是trusty,16.04则是xenial,其他版本对应关系可查看https://cran.r-project.org/bin/linux/ubuntu/README.html
WGCNA的总结
Symbols count in article: 6.7k Reading time ≈ 6 mins.
基本概念
WGCNA全名Weighted Gene Co-Expression Network Analysis,粗略翻译为加权基因共表达网络分析,因此可以归于共表达网络分析。
WGCNA主要运用于在大样本基因表达数据,从中挖掘出具有相似表达谱的基因,接着将这些基因聚集在一起,并归于同一模块(module)中。这是由于作者认为具有相同表达趋势的基因,在一些生物学功能上可能也有一定的相关性。然后通过模块特征值(module eigengene)或者hub gene对模块进行区分,接着计算模块与模块之间的相关性以及模块与样本性状之间的相关性,从而筛选有与性状高度相关的模型,并对模块中的基因进行分析,从而找到跟研究相关的目标基因。不少文章运用这方法来寻找潜在生物标志物以及药物靶点。
VarScan2 Call SNP
Symbols count in article: 3.2k Reading time ≈ 3 mins.
先搬一段VarScan的介绍http://dkoboldt.github.io/varscan/
VarScan is a platform-independent mutation caller for targeted, exome, and whole-genome resequencing data generated on Illumina, SOLiD, Life/PGM, Roche/454, and similar instruments.
Freebayes Call SNP
Symbols count in article: 2.7k Reading time ≈ 2 mins.
Freebayes身为众多call变异软件中的一员,一直被使用到现在,肯定有其独到之处。因此对其的简单使用方法做个笔记
Cutadapt对测序数据质控(去接头)
Symbols count in article: 2.6k Reading time ≈ 2 mins.
简单的说,cutadapt是一款去接头并且也能去低质量碱基的软件。至于接头的产生,一般来说是由于在随机打断时,有些片段的长度过于短,导致插入片段不够,使得测序时会读到测序引物。因此理论上来说接头是不应该被测序仪读到的,但是个别情况读到引物,我们需要通过cutadapt进行去除。
Samtools+bcftools Call SNP
Symbols count in article: 2.7k Reading time ≈ 2 mins.
bwa mem算法 比对human_g1k_v37.fasta参考序列
用samtools sort或者picard.jar SortSam对比对后的sam进行默认排序,然后转化为bam文件
用picard MarkDuplicates对bam文件进行mark duplicates,以免PCR重复reads对后续call snp造成影响,没必要去除,可参照https://www.biostars.org/p/3917/
用samtools merge将多个lane合并(如果是多个lane的WGS的话),生成merged_marked.bam文件(以上步骤和原始数据可参看GATK best practices(Pre-processing+Variant discovery))
使用samtools mpileup + bcftools call SNP
Samtools常用命令的总结
Symbols count in article: 3.1k Reading time ≈ 3 mins.
flags
1 0x1 这序列是PE双端测序
2 0x2 这序列和参考序列完全匹配,没有错配和缺失
4 0x4 这序列没有mapping到参考序列上
8 0x8 这序列的mate序列没有mapping到参考序列上
16 0x10 这序列比对到参考序列的负链上
32 0x20 这序列的mate序列比对到参考序列的负链上
64 0x40 这序列是read1
128 0x80 这序列是read2
256 0x100 这序列不是主要的比对,因为序列可能比对到参考序列的多个位置上
512 0x200 这序列没有通过QC
1024 0x400 这序列是PCR重复序列
2048 0x800 这序列是补充比对
Trinity的安装与使用
Symbols count in article: 4.9k Reading time ≈ 4 mins.
Triniy的原理及过程
Trinity是由 Broad Institute开发的,用于转录本的de novo拼接,主要由三个软件模块组成:Inchworm, Chrysalis and Butterfly,能处理大型的RNA数据。
RSeQC使用笔记
Symbols count in article: 2.3k Reading time ≈ 2 mins.
RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。
可用于评估RNA-Seq实验的各个方面,比如sequence quality, GC bias, polymerase chain reaction bias, nucleotide composition bias, sequencing depth, strand specificity, coverage uniformity and read distribution over the genome structure