0%

这个KEGG WebLinks简单的说,就是利用url命名规则,直接通过网页访问KEGG数据库

  1. 首先有一个概念需要理清楚

    map00010
    ko00010
    hsa00010

    上述3个通路命名表示的是同一个通路(Glycolysis / Gluconeogenesis),但是从图上也可以看出三者有点细微的区别:

    • map00010:以灰色背景显示通路里的所有的点
    • ko00010:以蓝色显示通路里的所有KO号
    • hsa00010:以绿色显示通路里的所有与人有关的点,并显示(鼠标移到某个点)对应的gene entries
      Read more »

在搞blast2go本地化的时候,发现我ubuntu系统默认将mysql安装在根目录下的,因而mysql的默认数据库路径也就是/var/lib/mysql,在我导入大文件时就出问题了,根目录满了。因此我需要将mysql的默认数据库目录改到我的home目录下

Read more »

最近想学习下使用GATK所介绍的best practice流程来call SNP流程

最开始按照网上的教程,在BWA比对后,准备用picard来压缩排序sam文件为bam文件,并对bam文件进行duplicates marking,这是就需要用到picard软件

Read more »

BWA介绍

BWA 全名 Burrow-Wheeler Aligner

BWA是一款将DNA序列mapping到参考基因组上的软件,例如比对到人类基因组。其由三个算法组成BWA-backtrack,BWA-SW和BWA-MEM。在该软件作者的github上可以看到对三个算法的不同用处的解释https://github.com/lh3/bwa

  1. The first algorithm is designed for Illumina sequence reads up to 100bp, while the rest two for longer sequences ranged from 70bp to a few megabases.
  2. BWA-MEM and BWA-SW share similar features such as the support of long reads and chimeric alignment, but BWA-MEM, which is the latest, is generally recommended as it is faster and more accurate.
  3. BWA-MEM also has better performance than BWA-backtrack for 70-100bp Illumina reads.

并且在BWA命令中可以分别调用这三个算法,如:aln/samse/sampe for BWA-backtrack,bwasw for BWA-SW,mem for the BWA-MEM

Read more »

karyoploteR是一个bioconductor的一个R包,用于定制非环形全基因组数据的可视化。其绘图绘图过程按照R的基本绘图系统,并且不需要其他图形包。karyoploteR旨在给使用者提供一种可以创建任何线性染色体基因组的表征,并在染色体上绘制相关基因组注释和实验数据。

Read more »

当我们需要一些NGS数据时,一般会想到去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,如果网络不给力的话,那只能是龟速的下载,对于那些几十G或者上百G的数据,那就实在无能为力了。这时我们可以使用Aspera来下载NGS数据

Read more »

当你不满足只是在RStudio上只能自己查看自己写的shinyapp时,但又没服务器作为媒介来分享自己的shiny程序,那么shinyapp.io是你不二的选择。

Read more »

一般来说,我们现在平时用的最多的数据库应该算NCBI和Ensembl了,所以我们应该对其的一些名词要有一定的了解,如:

Read more »

InterPro是一个数据库,其提供蛋白序列的功能分析并归纳为一个个蛋白家族,同时还预测了presence of domains和important sites。为了将蛋白分类,InterPro使用先验模型,整合了不同的数据库形成一个整体

Read more »

ComplexHeatmap其实是一个很全面的R包,它除了可以绘制简单热图还有其他复杂实用的热图,这里主要简单的介绍一下如何用这个R包来绘制简单热图

Read more »

Usage

DT包主要用到的函数是datatable(),其参数如下:

datatable(data, options = list(), class = "display", callback = JS("return table;"), 
rownames, colnames, container, caption = NULL, filter = c("none", "bottom", 
    "top"), escape = TRUE, style = "default", width = NULL, height = NULL, 
elementId = NULL, fillContainer = getOption("DT.fillContainer", NULL), autoHideNavigation = getOption("DT.autoHideNavigation", 
    NULL), selection = c("multiple", "single", "none"), extensions = list(), 
plugins = NULL)

下面主要介绍下几个参数的用法

Read more »

首先需要说明的是,limma是一个非常全面的用于分析芯片以及RNA-Seq的差异分析,按照其文章所说:

limma is an R/Bioconductor software package that provides an integrated solution for analysing data from gene expression experiments.

在这我只是对其中的一种情况进行简单的总结,比如这个包可以处理RNA-Seq数据,我简单的以两个比较组进行分组为例,至于其他分组情况,请看limma说明文档,有非常详细的说明,非常亲民。

Read more »

DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。

这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。因此会发现,用两者处理同一组数据,最后在相同阈值下筛选出的大部分基因都是一样的,但是有一部分不同应该是由于其估计离散度的不同方法所导致的。

Read more »

TransDecoder按照其官网的说明,主要用于识别转录本序列中的潜在的编码区域,也就是预测CDS。转录本可以由RNA-Seq数据通过Trinity组装来的,也可以由RNA-Seq比对到参考基因组上构建的转录本。

Read more »

例如,在我们对鉴定到的差异蛋白做GO功能注释后,通常会计算一个p值。当某个蛋白的p值小于0.05(5%)时,我们通常认为这个蛋白在两个样本中的表达是有差异的。但是仍旧有5%的概率,这个蛋白并不是差异蛋白。那么我们就错误地否认了原假设(在两个样本中没有差异表达),导致了假阳性的产生(犯错的概率为5%)。

Read more »