KEGG API是一个连接KEGG各类数据库的应用程序,主要以URL形式进行访问:
http://rest.kegg.jp/<operation>/<argument>[/<argument2[/<argument3> ...]]
<operation> = info | list | find | get | conv | link | ddi
KEGG API是一个连接KEGG各类数据库的应用程序,主要以URL形式进行访问:
http://rest.kegg.jp/<operation>/<argument>[/<argument2[/<argument3> ...]]
<operation> = info | list | find | get | conv | link | ddi
GO.db是一个用注释maps来描述Gene Ontology的一个R包,其在很多GO注释及富集的R包中被调用,应用广泛,每半年更新一次。主要用来描述各个Term之间的父子节点联系以及Term的信息。
一般来说我们都是通过install.packages()
安装base R包
通过source("https://bioconductor.org/biocLite.R")
biocLite()
来安装bioconductor
我按照前面的流程转录组差异表达分析小实战(一),将小鼠的4个样本又重新跑了一遍,从而获得一个新的count文件:mouse_all_count.txt,有需要的话,可以下载下来进行后续的差异分析。
做个笔记,记录下KEGG的BRITE和PATHWAY
KEGG BRITE is a collection of manually created hierarchical text (htext) files capturing functional hierarchies of various biological objects, especially those represented as KEGG objects.(依据KEGG数据库,通过人工收集,对生物层面进行分级注释的数据,其实也就是一个有层级关系的文件)
与One-Liner相关的perl参数
-a 自动分隔模式,用空格分隔$并保存在@F中,也就是@F=split //, $
-F 指定-a的分隔符
-l 对输入的内容进行自动chomp,对输出的内容自动加换行符
-n 相当于while(<>)
-e 执行命令,也就是脚本
-p 自动循环+输出,也就是while(<>){命令(脚本); print;}
记住以上几点参数,几乎可以开始使用perl来编写one line命令了
文献名称:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors
查找数据:Data availability
The RIP-seq an RNA-seq data have been deposited in the Gene Expression Omnibus database, with accession code GSE81916. All other data is available from the author upon reasonable request.
获得GSE号:GSE81916
Conda是一个开源包管理系统和环境管理系统,可用于安装多个版本的软件包及其依赖关系,在能在它们之间切换。
首先是软件的安装
下载NCBI的TaxonKit软件,http://bioinf.shenwei.me/taxonkit/download/,linux系统直接解压,接着:
将taxonkit放到环境变量中
sudo cp taxonkit /usr/local/bin/
将两个文件(names.dmp和nodes.dmp)复制到用户目录下的隐藏文件夹.taxonkit中
cp names.dmp ~/.taxonkit
cp nodes.dmp ~/.taxonkit
然后就能正常使用了
下载NCBI的csvtk软件,http://bioinf.shenwei.me/csvtk/download/,linux系统也是直接解压,即可使用
还有一个数据文件需要下载,里面有NCBI的accession与taxid的对应关系,prot.accession2taxid.gz
VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同
VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释(看英文能懂的话,下面的解释就不用看了),而下面没#号注释的部分则是各个参数对应的具体的值
给服务器再创建一个root权限以外的普通用户是一个非常常见的需求,前提你有root权限。。。
GATK Best Practices的目的:Best Practices for Germline SNP & Indel Discovery in Whole Genome and Exome Sequence
准备按照下述教程对其做个小笔记(流程参照官网,并结合公众号),熟悉一下如何寻找变异位点的GATK流程
这个KEGG WebLinks简单的说,就是利用url命名规则,直接通过网页访问KEGG数据库
Blast2go本地化教程网上也有不少,但是都是13年之前的,由于最近有这个需求,我也重新收集了下资料,然后整理了下:
主要参考:
http://blog.shenwei.me/local-blast2go-installation/
http://www.blast2go.com/b2glaunch/resources/35-localb2gdb
各种百度+google
在搞blast2go本地化的时候,发现我ubuntu系统默认将mysql安装在根目录下的,因而mysql的默认数据库路径也就是/var/lib/mysql,在我导入大文件时就出问题了,根目录满了。因此我需要将mysql的默认数据库目录改到我的home目录下
最近想学习下使用GATK所介绍的best practice流程来call SNP流程
最开始按照网上的教程,在BWA比对后,准备用picard来压缩排序sam文件为bam文件,并对bam文件进行duplicates marking,这是就需要用到picard软件
BWA 全名 Burrow-Wheeler Aligner
BWA是一款将DNA序列mapping到参考基因组上的软件,例如比对到人类基因组。其由三个算法组成BWA-backtrack,BWA-SW和BWA-MEM。在该软件作者的github上可以看到对三个算法的不同用处的解释https://github.com/lh3/bwa
并且在BWA命令中可以分别调用这三个算法,如:aln/samse/sampe for BWA-backtrack,bwasw for BWA-SW,mem for the BWA-MEM
Shiny是RStudio公司开发的一个R包,通过它可以用R语言开发交互式web应用。
karyoploteR是一个bioconductor的一个R包,用于定制非环形全基因组数据的可视化。其绘图绘图过程按照R的基本绘图系统,并且不需要其他图形包。karyoploteR旨在给使用者提供一种可以创建任何线性染色体基因组的表征,并在染色体上绘制相关基因组注释和实验数据。