0%

由于开始时文献阅读的不多,导致对一些甲基化芯片文章的理解造成了一定的偏差,这篇笔记陆陆续续改了几次

之前甲基化入门学习时本打算重复下提纲给的文献,但是后来学习过程中发现GEO上下载的RAW文件里没有该样本信息文件,就用了ChAMP包的测试数据。最后想了想,还是决定找一篇比较简单的文献的来实践使用下甲基化450K芯片的分析过程。看了几篇关于人的甲基化文献(数据在GEO上的),挑了一篇Intrinsic gene changes determine the successful establishment of stable renal cancer cell lines from tumour tissue,样本数据比较少,但是文章对分组比较明确(或者说是分的比较简单),所以拿来试试

Read more »

在学习全基因组call variant时,用过snpEFF/Annovar两款对vcf文件注释的软件,如两篇博文所记录的简单学习snpEFF注释vcf-笔记Annovar注释vcf-笔记,那时并未对结果进一步的解读,比如:Sequence Ontology这个概念

Annovar

Annovar的Gene-based annotation的结果有两个文件: >1. 在外显子位点上的突变注释:XX.exonic_variant_function
>2. 所有位点上的突变注释:XX.variant_function

XX.variant_function文件一般关心前两列,后面几列均是变异位点的一些信息(因为我那时没有选择其他snp相关数据库,只是Gene-based annotation的话,所得信息会比较少):

Read more »

为什么要安装Rstudio-server:

  1. 老式笔记本在R处理一些较大数据时越来越力不从心了,有时因为运行一些R脚本,会导致笔记本的卡死
  2. 最近在学习甲基化芯片分析,在ubuntu的R中使用ChAMP包分析数据时遇无法打开GUI的问题,这时就需要有一个可视化界面
  3. 在处理一些复杂数据时,服务器上的R能有效加快运算速度;但我已经习惯了在IDE环境(windows Rstudio)上的书写代码,无法忍受服务器上那简单的R操作界面
  4. 之前用shiny时也装过Rstuio-server,在Amazon Web Services (AWS)安装的,这次也想在自己服务器上装一个试试,方便以后装shiny
  5. 待写
    Read more »

DNA甲基化芯片分析有不少R包实现,如:minfi、lumi以及ChAMP等,我只粗略看过minfi和ChAMP,发现ChAMP的功能更加齐全以及使用也较为简单,并且其也集成了minfi包的部分功能,所以下面以ChAMP包作为学习对象

Read more »

基本概念梳理

  1. 什么是DNA甲基化

    DNA甲基化是表观遗传学的中最为常见的一种修饰,其主要形式包括:5-甲基胞嘧啶 (5-mC)、少量的N6-甲基腺嘌呤 (N6-mA) 以及7-甲基鸟嘌呤(7-mG)。

    目前常说的DNA甲基化一般指CpG岛甲基化,即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5'端的胞嘧啶转变为5'甲基胞嘧啶。

    哺乳动物体细胞的DNA胞嘧啶甲基化主要发生在CpG岛;CpG岛(CpG islands)指CpG序列密度相比整个基因组来说是特别高的富集区域,一般位于启动子附近,5'端非翻译区或第一个外显子;一般CpG岛序列长度在500bp以上,GC含量高于55%以及CpG出现比率大于0.65,40%的启动子区域含有CpG岛。

    CpG shores and shelves分别是指距CpG岛边缘2kb与4kb的区域,哺乳动物中的非CpG甲基化主要是发生在胚胎发育阶段和脑组织中

    基因组中60%-90%的CpG都被甲基化,未甲基化的CpG形成CpG岛,位于结构基因启动子的核心序列和转录起始点

    Read more »

最近在看一本书《赤裸裸的统计学》,其中有两章节讲的是中心极限定理以及统计推断与假设检验,看完后瞬间勾起我去统计推断的兴趣,想到了平时用的T检验,所以准备将统计学的一些基础知识好好补一补,就先从整理下对于T检验的粗浅理解好好补一补,就先从整理下对于T检验的粗浅理解

Read more »

Uniprot,全名Universal Protein,其整合了Swissprot、TrEMBL和PRI-PSD三大数据库,是目前使用非常广泛的蛋白质数据库

常规物种的蛋白质组学研究一般会使用Uniprot数据库的蛋白序列作为查库序列,因此蛋白组学的结果常以uniprot ID作为识别ID,而且Uniprot数据库还与其他公共库进行了关联,丰富了蛋白相关的信息

这里主要是对Uniprot的API进行一个小结。之前略微了解过KEGG的API,能非常方便的通过URL以及编程命令轻松访问KEGG数据库获取所需要的信息,Uniprot API也有相同的功能

Read more »

在转录组定量分析时,如果采用的是alignment-based转录组定量策略,那么一般会使用的是HISAT2、STAR或者TopHat等比对软件。

接着则是对转录组进行定量,如果是基于基因水平的定量,我之前一般是采用HTSeq-count工具来获取每个基因上的count数。所谓count数,个人简单的理解为根据不同比对情况,将reads分配到各个基因上。HTSeq-coun对于多重比对的reads则是采取舍弃策略。当HTSeq-count选择默认参数(-m 默认模式),那么reads是以下图所示的union的情况进行分配的

Read more »

在生信领域,不可避免会使用R来处理一些数据,不仅因为R在生信数据分析中的广泛应用,而且也由于R其强大的数据处理以及统计分析能力。不管是NGS数据,还是芯片或者公共数据,我们都需要对其进行预处理以及相关的下游分析,这时如何提高处理及分析效率就是一个关键的技能。

起初我一般会选择一些R的base函数进行操作,但从最开始学习R开始,就听起别人说有个叫dplyr的R包是一个处理数据的利器,结果由于那时too native地觉得dplyr也就比base函数方便一点而已。直到最近使用了dplyr包后,才发现自己之前的想法是多么幼稚!现在只要是处理数据的R脚本,我会毫不犹豫的先加载个dplyr。。。。

Read more »

最近在逛R语言数据分析与可视化是发现了有个ggpubr包可以绘制箱线图的显著性标记,感觉蛮有用的,然后就在网上搜了下显著性标记相关资料,发现除了ggpubr包外,发现一个ggsignif包!查了下原来这个包是专门配套ggplot2来给图添加显著性标记的,所以收藏并使用了下

Read more »

去年的这个时候,我参加了生信技能树Jimmy办的线上R语言处理表达芯片教程,这也是我进入生信领域,第一个学习的完整流程。那时对生信的一些基础概念还是处于模糊的状态,只是略懂了点R语言,勉强的听完了整个教程。

Read more »

在ChIP-Seq分析小实战(一)中以将数据做好了准备,接着就是按照文章中所述将ChIP-seq数据用botwie比对至NCBIM37基因组上,但是这次我还是按照教程的方法,使用bowtie2比对至mm10基因组上

Read more »

首先要先感谢生信技能树Jimmy分享ChIP-seq基础入门教程,让我有机会以及动力去好好了解ChIP-seq,教程的提纲以这篇2013年发表在Cell Reports的文章RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells为例,并给出了这篇文章ChIP-seq分析的每个步骤,可供我们实践。

Read more »

引用

Perl的标量变量保存单个值;数组保存一个有序的标量变量;散列保存一个无序的标量集合作为值

个人觉得,正是因为有引用,将标量、数组和散列很好的结合在一起,才在处理复杂的数据结构中游刃有余,引用可以分别数组引用和散列引用,还有个是子例程引用

Read more »

数组

数组中的每个元素都是单独的标量变量,并且是有序的,我们可以通过数组索引对其赋值

@array = ()定义空数组,$#array表示数组最后一次元素的索引值,$array[0]表示数组第一个元素以及$array[-1]表示数组最后一个元素等

怎么理解数组是有序这个意思呢,比如我想将有三个元素的数组赋值于一个只有两个元素的数组,那么后面的数组的第三个元素将自动被忽略,如下:

($one, $two) = ("aaa", "bbb", "ccc");

或者这么理解:

@array[2,3] = ("a", "bb");
Read more »