例如,在我们对鉴定到的差异蛋白做GO功能注释后,通常会计算一个p值。当某个蛋白的p值小于0.05(5%)时,我们通常认为这个蛋白在两个样本中的表达是有差异的。但是仍旧有5%的概率,这个蛋白并不是差异蛋白。那么我们就错误地否认了原假设(在两个样本中没有差异表达),导致了假阳性的产生(犯错的概率为5%)。
CDS预测之同源比对
Symbols count in article: 691 Reading time ≈ 1 mins.
在基因组研究逐渐成熟步入商业化后,转录组、蛋白组以及代谢组在科研领域的使用也有了大幅度的增加。在转录组中,一些公司的报告式样式中必有一项为CDS预测,但是各个公司使用的方法各有不同。CDS预测除了自个研究需要外,一个比较重要的用处是构建蛋白序列库,这也是转录组和蛋白组关联分析的桥梁。
Blast+ xml格式解读
Symbols count in article: 1.8k Reading time ≈ 2 mins.
本地BLAST比对后,如果使用outfmt 5参数的话,会产生一个xml格式的文件,里面的比对信息不像tabular(outfmt 6)那样简显,但是对比信息却很完整。简单列举一些常用的信息。
BLAST本地化使用
Symbols count in article: 1.2k Reading time ≈ 1 mins.
Blast的应该算生信入门过程中使用频率最高的软件之一了,而且一些软件的原理也是基于序列比对的基础上的。NCBI提供web版序列比对,在KEGG上的KAAS也是提供比对功能然后查找KEGG id。数量不多的序列可以根据NCBI网页上即可进行比对,但是面对几千上万条序列,则需要本地BLAST进行比对。
mRNA文库构建
Symbols count in article: 906 Reading time ≈ 1 mins.
RNA-seq测序方法
在测mRNA过程中,首先要去除rRNA。以人为例,在抽提的总RNA中,95%的RNA是rRNA,2%的RNA是mRNA,剩下的则是lncRNA、microRNA、siRNA等。
rRNA整个人类当中是非常保守的,在各个组织器官中也是非常稳定的,因此这些测序结果对我们的研究是没有用处的。mRNA则是RNA中比较重要的部分。
Illumina公司的Truseq RNA建库方法是应用最广泛的一种,真核普通转录组为例:
- 首先以mRNA的Poly(A)(高等生物特有的)这个特点,让带有Poly(T)探针的磁珠与总RNA进行杂交,使mRNA和磁珠相结合在一起。
- 接着回收磁珠,将带有Poly(A)的mRNA从磁珠上洗脱下来。
- 然后用镁离子溶液将洗脱下来的mRNA打成片段,被打断的mRNA片段用随机引物逆转录出第一链的cDNA,再合成出第二链,这样就有了双链cDNA。
- 对双链cDNA末端修复,加A加接头。
- 片段选择,PCR扩增、纯化(如果样本中存在污染物,则需要结合试剂盒进一步纯化)。
Github上传本地文件
Github真是一样非常有用的工具
一般一些人会把解决某个问题的代码放在其Github下,可以分享自己的成果,也可以收藏别人的所展示的成果,还可以参与别人项目的讨论,对我来说,暂时还是一个仓库用,比如放置一些流程的代码。。
简介随笔-持续更新
写博客的目的 2017-03-24
首先我并不是正统学生信出身,因此我没有经历过生物信息学课程完整的学习过程。
读研学了3年生物,在毕业前半年突然发现自己如果继续按照去生物/药企公司-做实验-继续做实验这套路走下去的话,内心不知为何是抗拒的。比较幸运的是,那时接触到2代测序这个概念,就萌发了踏入生信这个领域的想法。
从完全不懂到略微了解生信是干什么的,大约花了半年时间。期间除了工作上的知识以及技术外,还不断的学习了生信的一些相关技能。最初我是将所有知识点记在本子上,然后发现这样效率太低了。 然后我将学习的内容和保存在电脑上,这样只要有需要就可以随时在电脑上翻到以前别人总结的或者自己总结的知识。
当有一天为了查一个问题的解法,但从百度到google查了一天无果时,真希望有个人能将这个问题放在了网上。而且一般来说,百度搜不到的问题都能在google上搜到,对于这一点,我还是蛮佩服老外的分享能力。因此我在想,我也将我自己的所整理的笔记分享到网上,让一些想获取类似问题解答方法的人能够获得启发。
因此从生信领域来说,这博客所写的内容可能并不系统,深度由于自身原因知识储备的局限性可能也是比较浅。可能还会有些随意的笔记。我只能尽可能的写一些自己的经验,或许能帮上一些像我一样刚刚进入生信的初学者。
分享经验,从我做起~~~