0%

最近有点浮躁,出去散了下心没什么好转,已经有1个多月没有系统的学习了,除了工作,其他时候也不知道在忙啥。

有时间就看了看文献,之前有一朋友推荐我看一篇临床研究的文献,发表于2017年 Breast Cancer Res Treat期刊的Clinical and molecular relevance of mutant-allele tumor heterogeneity in breast cancer,主要讲了使用Mutant-allele tumor heterogeneity(MATH)算法评估肿瘤异质性,并研究了其与一些临床指标以及组学数据的相关性,思路很简单,效果比较一般,并没有较大的突破,但是其MATH的算法还是值得看看的

Read more »

这个不是标题党,我确实很快的写了属于我自己的第一个R包,前后可能不过1小时,但是这个只是一个包的基础框架,也就是说,是一个最最简单的R包。。。

Read more »

蛋白质组学在现在众多组学中属于起步较晚的组学之一,一般跟代谢组并列提起,因为都是通过质谱仪进行检测(虽然代谢组不一定要用质谱)。我们通过质谱下机数据,然后经过软件进行图谱分析(查库),然后获得肽段/蛋白的丰度值,接下来可能就跟RNA-Seq等NGS数据一样,需要在蛋白表达谱(虽然由于仪器的限制,并未能检测到全部低丰度蛋白,鉴定到的蛋白数目还是处于N千数量级)中筛选出丰度发生显著变化的蛋白(这也就是常说的比较蛋白组学)

Read more »

实验设计中,一般会做三个生物学重复来确保结果的准确性,尤其在下游分析中。但有时会遇到没有生物学重复,而又需要进行差异分析的情况,这时一般建议考虑foldchange即可,因为根本无法进行T-test等统计学方法嘛。但是如果必须要算一个P值(个人觉得没啥必要。。。),那么不同组学有各自处理的方法(虽然并不是靠谱),比如NGS的转录组的一些软件会预估一个离散度做校正,而质谱的蛋白组则是用Significance A/B算法,这篇文章主要讲下Significance A/B是怎么来的

Read more »

本来应该这是一个很正常的学习过程,之前总结了一篇博文Bioconductor的质谱蛋白组学数据分析,对蛋白组学定量那块比较感兴趣,正好看到一个R包-MSstats,其可用来对DDA,SRM和DIA的结果进行蛋白差异分析,这R包发表于2014年,那时来说还是很不错的(还在不断更新维护),并且其还支持Maxquant查库结果文件作为输入(主要我有些此类测试文件),非常有兴趣的想尝试下看看结果,然后就入坑了。。。

Read more »

不知不觉,写这个博客一年了,也可以说刚好一年整

最初只是临时起意,将博客作为一个学习过程的督促者,在阿里云上买了个服务器,用wordpress尝试搭建了博客,那时感觉还不错,就开始在博客记录自己的笔记。当时也不知道自己能坚持多久,但是有一点还是明白的,只要每天都学习一点,这个博客就会一直更新下去,就这样写了一年

Read more »

记录之前一段时候作图的一些基础用法以及小技巧,但不局限于ggplot2(但我用的最多的还是ggplot2),持续更新(如果没忘记的话)。。。

Read more »

从我的博客的界面可看出,我这个网站是用Wordpress搭建的,不可否认,由于其入手简单,功能繁多的插件以及友好的界面是一些初学者建立个人网站的首选(比如我)。尽管你不懂HTML/CSS/JS等,也能通过wordpress轻松地搭建一个属于自己的网站

Read more »

ggplot2是R语言中用来可视化的利器,其图层逻辑非常人性化,简单的说就是一句话一张图,后一张图叠加在前一张图上,所想表达的几乎都可以用一句代码在图形上展示出来。如果刚开始接触R作图的话,完全可以快速地从ggplot2入门而不用去管base作图,ggplot2的用法已经完全覆盖base作图,除了一项(我至今接触到的)——图片布局

刚开始我也曾困惑过,base作图有par()函数来对多张图片进行布局排布,但该函数对于ggplot2的作图结果则是完全无效的。然后网上搜了一通,找了个grid包,其可以说专门用来排版图片的,当然也支持ggplot2,但是个人感觉使用起来不太顺手(由于其功能有点复杂了)。最近刚看到一个函数multiplot,查了下是来自Rmisc包,这个包发布于2013年,我在这之前也没用过,但是这个函数对于ggplot2结果图片的排布来说简单好使(后来简单看了下multiplot函数的源码,原来其就是用了grid包来实现布局的。。。相当于将grid包中关键的部分又封装了下),下面记录下上述两种方法:

Read more »

去年第一次接触Shiny时,由于其是基于R语言,用于开发交互式web应用,并且不需要HTML,CSS以及JS,所以当时非常有兴趣的学了一段时间,最终写了一个shiny app用于展示ComplexHeatmap包(其实就是用定义了几个插件用于调整做热图的参数),代码放在Github,然后就再也没用过了。。。

Read more »

如果想从Uniprot的API中提取individual entries的所有信息,如:P12345,则可以通过下述方法:

https://www.uniprot.org/uniprot/P12345.txt
https://www.uniprot.org/uniprot/P12345.xml
https://www.uniprot.org/uniprot/P12345.rdf
https://www.uniprot.org/uniprot/P12345.fasta
https://www.uniprot.org/uniprot/P12345.gff
Read more »

这篇跟之前的一篇博文Bioconductor的DNA甲基化芯片分析流程一样,主要简单的记录下如何基于bioconductor的R包对蛋白组质谱数据进行分析。在看到这篇biocondutor官网文档Mass spectrometry and proteomics data analysis之前,我一直以为质谱数据的分析过程就是用一些商业化软件或者开源软件将谱图转化为肽段/蛋白的表达谱,由于蛋白组应用未如NGS数据那般热门,所以就未去搜索过是否能用R包来对质谱数据进行一定程度的分析。还好biocondutor将蛋白组质谱数据分析相关的R包做了总结,如上述那篇文章,我也正好来学习下

Read more »

在之前一篇博文Bioinformatics for Proteomics Data 中提到,蛋白组学生物信息分析一般要经过图谱识别和定量两个步骤,其中定量这步对于后续的差异表达蛋白的筛选又至关重要,尤其现在蛋白质谱技术在一些生物标记物发掘中的应用。一般现在蛋白组学定量技术可以大致分为标记定量技术(iTRAQ)和非标记定量技术(Label-free),两者的显著差别在于是否用同位素标签进行标记,后者相比前者,因为不需要进行标记,所以费用相对来说较低,而且所需的样本总量少。Label-free是通过比较不同样本中相对应的肽段强度,进而对蛋白进行相对定量

Read more »

这里并不是全面地介绍如何对蛋白质组学进行分析,而是利用这篇文献Perseus: A Bioinformatics Platform for Integrative Analysis of Proteomics Data in Cancer Research,从一款用于蛋白组学下游分析的软件的角度,来写写常规的分析流程。从个人的角度来看,现在蛋白组学数据的上游分析因受仪器等原因的限制,分析方法没有较大的进步,分析流程也都整合在一些商业化软件中了,开源的软件较少。而下游分析则比较简单,还处于类似测序的芯片时代(意思就是分析内容几乎跟芯片分析一样,就那几种,唯一区别:蛋白组是基于肽段/蛋白表达矩阵。。。)

Read more »

本文开头先记录一篇文章李航博士的《浅谈我对机器学习的理解》

K-means聚类是一种无监督学习,主要用于对未标记的数据进行分组,这里的K代表分组的个数。K-means算法会迭代分配每个数据点到K个分组中,从而使得数据点基于特征相似性进行聚集

K-means一般认为的计算方法如下:

  1. 初始化簇的中心
  2. 遍历整个数据集,将每个数据点分配到离它最近的中心所在的簇中
  3. 以每个簇的数据点的均值中心点代替之前的中心,继续迭代直至收敛
    Read more »

一次偶然的搜索中发现biocondutor有个甲基化芯片的分析流程,刚好可以学习下,写的真的很棒。 Bioconductor的DNA methylation workflow可以在http://www.bioconductor.org/help/workflows/methylationArrayAnalysis/中查看,教程开头先对DNA甲基化芯片及其原理做了简单的介绍,包括一些常见的术语:比如β value和M value,后面就正式进入DNA甲基化的分析方法的讲解了。

Read more »

之前学习了ChAMP包来处理甲基化芯片分析的整个常规流程,这个包整合了好多常用工具以及分析算法,对使用者来说非常的便捷;但是从其说明文档来看,对于一些比较基础的过程讲的比较少,作为主要的读入芯片数据那步来说,我还是没明白芯片数据是怎么转化为beta矩阵的,所以我找了minfi包来了解下这个过程。

Read more »