给服务器再创建一个root权限以外的普通用户是一个非常常见的需求,前提你有root权限。。。
GATK best practices(Pre-processing+Variant discovery)
Symbols count in article: 7.6k Reading time ≈ 7 mins.
GATK Best Practices的目的:Best Practices for Germline SNP & Indel Discovery in Whole Genome and Exome Sequence
准备按照下述教程对其做个小笔记(流程参照官网,并结合公众号),熟悉一下如何寻找变异位点的GATK流程
利用KEGG WebLinks标注KEGG通路图
Symbols count in article: 2k Reading time ≈ 2 mins.
这个KEGG WebLinks简单的说,就是利用url命名规则,直接通过网页访问KEGG数据库
blast2go本地化教程
Symbols count in article: 2.9k Reading time ≈ 3 mins.
Blast2go本地化教程网上也有不少,但是都是13年之前的,由于最近有这个需求,我也重新收集了下资料,然后整理了下:
主要参考:
http://blog.shenwei.me/local-blast2go-installation/
http://www.blast2go.com/b2glaunch/resources/35-localb2gdb
各种百度+google
修改mysql默认数据库目录
Symbols count in article: 1.3k Reading time ≈ 1 mins.
在搞blast2go本地化的时候,发现我ubuntu系统默认将mysql安装在根目录下的,因而mysql的默认数据库路径也就是/var/lib/mysql,在我导入大文件时就出问题了,根目录满了。因此我需要将mysql的默认数据库目录改到我的home目录下
Picard的安装与注意事项
Symbols count in article: 1.2k Reading time ≈ 1 mins.
最近想学习下使用GATK所介绍的best practice流程来call SNP流程
最开始按照网上的教程,在BWA比对后,准备用picard来压缩排序sam文件为bam文件,并对bam文件进行duplicates marking,这是就需要用到picard软件
比对工具 BWA
Symbols count in article: 1.9k Reading time ≈ 2 mins.
BWA介绍
BWA 全名 Burrow-Wheeler Aligner
BWA是一款将DNA序列mapping到参考基因组上的软件,例如比对到人类基因组。其由三个算法组成BWA-backtrack,BWA-SW和BWA-MEM。在该软件作者的github上可以看到对三个算法的不同用处的解释https://github.com/lh3/bwa
- The first algorithm is designed for Illumina sequence reads up to 100bp, while the rest two for longer sequences ranged from 70bp to a few megabases.
- BWA-MEM and BWA-SW share similar features such as the support of long reads and chimeric alignment, but BWA-MEM, which is the latest, is generally recommended as it is faster and more accurate.
- BWA-MEM also has better performance than BWA-backtrack for 70-100bp Illumina reads.
并且在BWA命令中可以分别调用这三个算法,如:aln/samse/sampe for BWA-backtrack,bwasw for BWA-SW,mem for the BWA-MEM
使用shiny程序设计一个R包的交互界面
Shiny是RStudio公司开发的一个R包,通过它可以用R语言开发交互式web应用。
karyoploteR定制基因组可视化
Symbols count in article: 956 Reading time ≈ 1 mins.
karyoploteR是一个bioconductor的一个R包,用于定制非环形全基因组数据的可视化。其绘图绘图过程按照R的基本绘图系统,并且不需要其他图形包。karyoploteR旨在给使用者提供一种可以创建任何线性染色体基因组的表征,并在染色体上绘制相关基因组注释和实验数据。
Aspera的安装与使用
当我们需要一些NGS数据时,一般会想到去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,如果网络不给力的话,那只能是龟速的下载,对于那些几十G或者上百G的数据,那就实在无能为力了。这时我们可以使用Aspera来下载NGS数据
使用shinyapps.io管理shiny app
当你不满足只是在RStudio上只能自己查看自己写的shinyapp时,但又没服务器作为媒介来分享自己的shiny程序,那么shinyapp.io是你不二的选择。
NCBI/Ensembl ID的转换
Symbols count in article: 1.3k Reading time ≈ 1 mins.
一般来说,我们现在平时用的最多的数据库应该算NCBI和Ensembl了,所以我们应该对其的一些名词要有一定的了解,如:
InterProScan的使用教程
Symbols count in article: 1.9k Reading time ≈ 2 mins.
InterPro是一个数据库,其提供蛋白序列的功能分析并归纳为一个个蛋白家族,同时还预测了presence of domains和important sites。为了将蛋白分类,InterPro使用先验模型,整合了不同的数据库形成一个整体
使用ComplexHeatmap简单绘制热图
ComplexHeatmap其实是一个很全面的R包,它除了可以绘制简单热图还有其他复杂实用的热图,这里主要简单的介绍一下如何用这个R包来绘制简单热图
Learning DT包
Usage
DT包主要用到的函数是datatable()
,其参数如下:
datatable(data, options = list(), class = "display", callback = JS("return table;"),
rownames, colnames, container, caption = NULL, filter = c("none", "bottom",
"top"), escape = TRUE, style = "default", width = NULL, height = NULL,
elementId = NULL, fillContainer = getOption("DT.fillContainer", NULL), autoHideNavigation = getOption("DT.autoHideNavigation",
NULL), selection = c("multiple", "single", "none"), extensions = list(),
plugins = NULL)
下面主要介绍下几个参数的用法
简单使用limma做差异分析
Symbols count in article: 2.1k Reading time ≈ 2 mins.
首先需要说明的是,limma是一个非常全面的用于分析芯片以及RNA-Seq的差异分析,按照其文章所说:
limma is an R/Bioconductor software package that provides an integrated solution for analysing data from gene expression experiments.
在这我只是对其中的一种情况进行简单的总结,比如这个包可以处理RNA-Seq数据,我简单的以两个比较组进行分组为例,至于其他分组情况,请看limma说明文档,有非常详细的说明,非常亲民。
简单使用DESeq2/EdgeR做差异分析
Symbols count in article: 2.5k Reading time ≈ 2 mins.
DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。
这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。因此会发现,用两者处理同一组数据,最后在相同阈值下筛选出的大部分基因都是一样的,但是有一部分不同应该是由于其估计离散度的不同方法所导致的。
简单使用DESeq做差异分析
Symbols count in article: 1.7k Reading time ≈ 2 mins.
DESeq这个R包主要针对count data,其数据来源可以是RNA-Seq或者其他高通量测序数据。类似地,对于CHIP-Seq数据或者质谱肽段数据也是使用的。
TransDecoder使用的简易教程
Symbols count in article: 3.1k Reading time ≈ 3 mins.
TransDecoder按照其官网的说明,主要用于识别转录本序列中的潜在的编码区域,也就是预测CDS。转录本可以由RNA-Seq数据通过Trinity组装来的,也可以由RNA-Seq比对到参考基因组上构建的转录本。
Learning Shiny
强烈推荐这篇文章:http://deanattali.com/blog/building-shiny-apps-tutorial/
我按照上述教程做了下个人的总结,主要是一些最基础的东西,可能不太全,只是对上述教程的一个总结。