0%

生物信息分析平台可以有效的将非生信人员从生信软件中脱离,只专注于数据的输入与输出,不关注数据的具体分析过程

最近看到一篇可视化生信分析利器 Galaxy:本地部署文章,我也比较喜欢shiny这种工具(可以通过网站进行数据分析以及可视化),这点与Galaxy比较类似,但从平台角度来说,后者更加专业一点

Read more »

最近花了点时间终于把Python拿起来学习下了(拖了N久了),虽然编程代码最终还是要落实到实际操作中多写才行,但是刚开始的基础语法学习还是比较重要(特别对于我这种半路出家的而言)。

虽然现在编程学习的网上资源非常多(尤其Python),但是我还是喜欢先从书看起,比如最先看的<【笨办法】学Pyhthon>这本书,把前面基础语法部分翻了后才发现是Python2的,果断放弃了,对于新入门的人来说,有Python3为何还要学Pyhton2呢。后来看了,应用场景讲了不少,但是基础语法却不够深入。最后还是挑了,至少基础知识讲的蛮详细的,适合像我这种新手的入门学习

Read more »

最开始用SnpEff一直使用最近SnpEff提供的注释库,通过snpEff命令即可查找所需要的数据库名称

java -jar snpEff.jar databases |less -S

而且SnpEff官网也说明只用其默认的提供的数据库即可

Read more »

最近遇到一个问题,在对一个物种用GATK call variant时,发现在用MarkDuplicates命令对bam文件标记重复,在运一小段时间后会卡住终止,命令如下:

gatk --java-options "-Xmx20G" MarkDuplicates \
    -I A1_sorted_RG.bam \
    -O A1_sorted_RG_marked.bam \
    -M A1.metrics \
    --CREATE_INDEX true \
    --VALIDATION_STRINGENCY SILENT

但换picard软件来标记重复时却正常运行(只标记重复,不建index),然后排除下其他原因后,发现是MarkDuplicates命令在对bam文件建index时报错

Read more »

Blast比对软件大概是是短序列局部比对软件中最常用的一个了,但是其参数众多,一些参数一直没好好仔细研究过,如下:

Read more »

癌症研究通常是将肿瘤组织和正常组织一起测序(WGS/WES),然后过滤掉种系突变(germline mutation),从而获得肿瘤组织的体细胞突变(somatic mutation)

  • Somatic mutations – occur in a single body cell and cannot be inherited (only tissues derived from mutated cell are affected)
  • Germline mutations – occur in gametes and can be passed onto offspring (every cell in the entire organism will be affected)
    Read more »

最近看到有朋友说起R代码书写规范的问题,突然让我意识到,从学R语言开始,似乎没怎么在书上提起过R代码风格。之前在学习Perl的时候,Perl语言入门这本书从最开始就提到了Perl代码的书写风格,但其实Perl的风格就是没有风格,只要不太过分随意就好(所以我现在除了看自己的Perl代码还流畅,看其他的人的Perl代码需要打起十二分的精神,似乎每个人都很随意~)

Read more »

Cox比例风险模型(cox proportional-hazards model),简称Cox模型

是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型

Cox模型的基本假设为:

在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说其危险曲线应该是成比例而且是不能交叉的;也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍,那么在其他任意时间点的死亡风险也同样是2倍

Read more »

整理下最近看的生存分析的资料

生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法

其主要应用领域:

  • Cancer studies for patients survival time analyses(临床癌症上病人生存分析)

  • Sociology for "event-history analysis"(我也不懂)

  • engineering for "failure-time analysis"(类似于机器使用寿命,故障等研究)

    Read more »

Pathview是一个用于整合表达谱数据并用于可视化kegg通路的一个R包,其会先下载kegg官网上的通路图,然后整合输入数据对通路图进行再次渲染(加工?),从而对kegg通路图进行一定程度上的个性化处理

Read more »

继续整理shiny的几个用法

DataTables in a Shiny App

DT包可以说是shiny网页展示表格的首选(个人觉得哈),其功能丰富,是JS的DataTables库的R端口,功能非常强强大,简单的使用即可满足常用的需求,如:

Read more »

以下是最近整理的Shiny小程序的一些笔记

App formats and launching apps

曾经在写Shiny小程序的时候,需要包括2个文件:ui.Rserver.R,里面分别包含了两个函数:shinyUI()shinyServer();但是现在的Shiny程序并不需要这样形式了,只需要一个app.R,格式跟我们平时在RStduio中写的shiny程序一样,由三部分组成,如下:

Read more »

Shiny的UI界面可用多个方式来展示,你可以用shiny基本布局函数+theme主题函数来实现;也可以用shinydashboard来定义你网页的布局,当然还有shiny的JS插件以及其他技巧。

Read more »

GATK升级4.0版了,作为人类call variant的金标准软件,加上其强大的团队,每次重大更新都会给使用者带来一点新的东西(或者说是改变),我也正好整理下,将GATK基本分析流程过渡到4.0版本

Read more »

要生成一个动态报告,我一般会首选html报告(网页版报告),其交互性以及页面更加丰富点;但是如果是要一份正规的报告,那么一般会选PDF报告

在前面一篇博文R Markdown学习中提到过,如果你是用RStudio来生成报告的话,还除了pandoc外(因为RStudio自带),还需要安装miktex(windows),因为这是基于latex的

Read more »