0%

Ubuntu版本:14.04

升级R 3.1 至3.4

  1. 打开软件源文件,添加CRAN源

     sudo vim /etc/apt/sources.list
     ##deb http://mirrors.tuna.tsinghua.edu.cn/cran/bin/linux/ubuntu/ trusty/

    trusty/是根据你的ubuntu的版本号而改变的,比如14.04是trusty,16.04则是xenial,其他版本对应关系可查看https://cran.r-project.org/bin/linux/ubuntu/README.html

    Read more »

基本概念

WGCNA全名Weighted Gene Co-Expression Network Analysis,粗略翻译为加权基因共表达网络分析,因此可以归于共表达网络分析。

WGCNA主要运用于在大样本基因表达数据,从中挖掘出具有相似表达谱的基因,接着将这些基因聚集在一起,并归于同一模块(module)中。这是由于作者认为具有相同表达趋势的基因,在一些生物学功能上可能也有一定的相关性。然后通过模块特征值(module eigengene)或者hub gene对模块进行区分,接着计算模块与模块之间的相关性以及模块与样本性状之间的相关性,从而筛选有与性状高度相关的模型,并对模块中的基因进行分析,从而找到跟研究相关的目标基因。不少文章运用这方法来寻找潜在生物标志物以及药物靶点。

Read more »

Freebayes身为众多call变异软件中的一员,一直被使用到现在,肯定有其独到之处。因此对其的简单使用方法做个笔记

Read more »

简单的说,cutadapt是一款去接头并且也能去低质量碱基的软件。至于接头的产生,一般来说是由于在随机打断时,有些片段的长度过于短,导致插入片段不够,使得测序时会读到测序引物。因此理论上来说接头是不应该被测序仪读到的,但是个别情况读到引物,我们需要通过cutadapt进行去除。

Read more »

  1. bwa mem算法 比对human_g1k_v37.fasta参考序列

  2. 用samtools sort或者picard.jar SortSam对比对后的sam进行默认排序,然后转化为bam文件

  3. 用picard MarkDuplicates对bam文件进行mark duplicates,以免PCR重复reads对后续call snp造成影响,没必要去除,可参照https://www.biostars.org/p/3917/

  4. 用samtools merge将多个lane合并(如果是多个lane的WGS的话),生成merged_marked.bam文件(以上步骤和原始数据可参看GATK best practices(Pre-processing+Variant discovery)

  5. 使用samtools mpileup + bcftools call SNP

    Read more »

  1. flags

    1 0x1 这序列是PE双端测序
    2 0x2 这序列和参考序列完全匹配,没有错配和缺失
    4 0x4 这序列没有mapping到参考序列上
    8 0x8 这序列的mate序列没有mapping到参考序列上
    16 0x10 这序列比对到参考序列的负链上
    32 0x20 这序列的mate序列比对到参考序列的负链上
    64 0x40 这序列是read1
    128 0x80 这序列是read2
    256 0x100 这序列不是主要的比对,因为序列可能比对到参考序列的多个位置上
    512 0x200 这序列没有通过QC
    1024 0x400 这序列是PCR重复序列
    2048 0x800 这序列是补充比对

    Read more »

Triniy的原理及过程

Trinity是由 Broad Institute开发的,用于转录本的de novo拼接,主要由三个软件模块组成:Inchworm, Chrysalis and Butterfly,能处理大型的RNA数据。

Read more »

RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。

可用于评估RNA-Seq实验的各个方面,比如sequence quality, GC bias, polymerase chain reaction bias, nucleotide composition bias, sequencing depth, strand specificity, coverage uniformity and read distribution over the genome structure

Read more »

KEGG API是一个连接KEGG各类数据库的应用程序,主要以URL形式进行访问:

http://rest.kegg.jp/<operation>/<argument>[/<argument2[/<argument3> ...]]
<operation> = info | list | find | get | conv | link | ddi
Read more »

GO.db

GO.db是一个用注释maps来描述Gene Ontology的一个R包,其在很多GO注释及富集的R包中被调用,应用广泛,每半年更新一次。主要用来描述各个Term之间的父子节点联系以及Term的信息。

Read more »

  1. 一般来说我们都是通过install.packages()安装base R包

    通过source("https://bioconductor.org/biocLite.R") biocLite()来安装bioconductor

    Read more »

做个笔记,记录下KEGG的BRITE和PATHWAY

KEGG BRITE is a collection of manually created hierarchical text (htext) files capturing functional hierarchies of various biological objects, especially those represented as KEGG objects.(依据KEGG数据库,通过人工收集,对生物层面进行分级注释的数据,其实也就是一个有层级关系的文件)

Read more »

与One-Liner相关的perl参数

-a 自动分隔模式,用空格分隔$并保存在@F中,也就是@F=split //, $
-F 指定-a的分隔符
-l 对输入的内容进行自动chomp,对输出的内容自动加换行符
-n 相当于while(<>)
-e 执行命令,也就是脚本
-p 自动循环+输出,也就是while(<>){命令(脚本); print;}

记住以上几点参数,几乎可以开始使用perl来编写one line命令了

Read more »

读文献获取数据

文献名称:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors

  1. 查找数据:Data availability
    The RIP-seq an RNA-seq data have been deposited in the Gene Expression Omnibus database, with accession code GSE81916. All other data is available from the author upon reasonable request.

  2. 获得GSE号:GSE81916

    Read more »

Conda是一个开源包管理系统和环境管理系统,可用于安装多个版本的软件包及其依赖关系,在能在它们之间切换。

Read more »

  1. 首先是软件的安装

VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同

VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释(看英文能懂的话,下面的解释就不用看了),而下面没#号注释的部分则是各个参数对应的具体的值

Read more »