生物信息分析平台可以有效的将非生信人员从生信软件中脱离,只专注于数据的输入与输出,不关注数据的具体分析过程
最近看到一篇可视化生信分析利器 Galaxy:本地部署文章,我也比较喜欢shiny这种工具(可以通过网站进行数据分析以及可视化),这点与Galaxy比较类似,但从平台角度来说,后者更加专业一点
生物信息分析平台可以有效的将非生信人员从生信软件中脱离,只专注于数据的输入与输出,不关注数据的具体分析过程
最近看到一篇可视化生信分析利器 Galaxy:本地部署文章,我也比较喜欢shiny这种工具(可以通过网站进行数据分析以及可视化),这点与Galaxy比较类似,但从平台角度来说,后者更加专业一点
最近花了点时间终于把Python拿起来学习下了(拖了N久了),虽然编程代码最终还是要落实到实际操作中多写才行,但是刚开始的基础语法学习还是比较重要(特别对于我这种半路出家的而言)。
虽然现在编程学习的网上资源非常多(尤其Python),但是我还是喜欢先从书看起,比如最先看的<【笨办法】学Pyhthon>这本书,把前面基础语法部分翻了后才发现是Python2的,果断放弃了,对于新入门的人来说,有Python3为何还要学Pyhton2呢。后来看了,应用场景讲了不少,但是基础语法却不够深入。最后还是挑了
最开始用SnpEff一直使用最近SnpEff提供的注释库,通过snpEff命令即可查找所需要的数据库名称
java -jar snpEff.jar databases |less -S
而且SnpEff官网也说明只用其默认的提供的数据库即可
最近遇到一个问题,在对一个物种用GATK call variant时,发现在用MarkDuplicates
命令对bam文件标记重复,在运一小段时间后会卡住终止,命令如下:
gatk --java-options "-Xmx20G" MarkDuplicates \
-I A1_sorted_RG.bam \
-O A1_sorted_RG_marked.bam \
-M A1.metrics \
--CREATE_INDEX true \
--VALIDATION_STRINGENCY SILENT
但换picard软件来标记重复时却正常运行(只标记重复,不建index),然后排除下其他原因后,发现是MarkDuplicates
命令在对bam文件建index时报错
Blast比对软件大概是是短序列局部比对软件中最常用的一个了,但是其参数众多,一些参数一直没好好仔细研究过,如下:
癌症研究通常是将肿瘤组织和正常组织一起测序(WGS/WES),然后过滤掉种系突变(germline mutation),从而获得肿瘤组织的体细胞突变(somatic mutation)
最近看到有朋友说起R代码书写规范的问题,突然让我意识到,从学R语言开始,似乎没怎么在书上提起过R代码风格。之前在学习Perl的时候,Perl语言入门这本书从最开始就提到了Perl代码的书写风格,但其实Perl的风格就是没有风格,只要不太过分随意就好(所以我现在除了看自己的Perl代码还流畅,看其他的人的Perl代码需要打起十二分的精神,似乎每个人都很随意~)
之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据
这篇笔记连标题都懒得想了(照搬教程标题。。。),继续接上篇R语言-Cox比例风险模型和上上篇Survival analysis(生存分析)
Cox比例风险模型(cox proportional-hazards model),简称Cox模型
是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型
Cox模型的基本假设为:
在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说其危险曲线应该是成比例而且是不能交叉的;也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍,那么在其他任意时间点的死亡风险也同样是2倍
整理下最近看的生存分析的资料
生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法
其主要应用领域:
Cancer studies for patients survival time analyses(临床癌症上病人生存分析)
Sociology for "event-history analysis"(我也不懂)
engineering for "failure-time analysis"(类似于机器使用寿命,故障等研究)
之前大致了解了些免疫疗法的相关内容,最近一篇文章深度长文:一文尽览PD-1/PD-L1/CTLA-4肿瘤免疫治疗分子标志物大全概括性的讲述了一些现在免疫疗法中生物标志物的相关内容,值得仔细看一看
测试数据:KPGP的WES测序数据,下载地址ftp://ftp.kobic.re.kr/pub/KPGP/2017_release_candidate/WES/,分别下载了KPGP-00265
,KPGP-00266
,KPGP-00267
,KPGP-00270
和KPGP-00273
5组数据
Pathview是一个用于整合表达谱数据并用于可视化kegg通路的一个R包,其会先下载kegg官网上的通路图,然后整合输入数据对通路图进行再次渲染(加工?),从而对kegg通路图进行一定程度上的个性化处理
继续整理shiny的几个用法
DT包可以说是shiny网页展示表格的首选(个人觉得哈),其功能丰富,是JS的DataTables库的R端口,功能非常强强大,简单的使用即可满足常用的需求,如:
以下是最近整理的Shiny小程序的一些笔记
曾经在写Shiny小程序的时候,需要包括2个文件:ui.R
和server.R
,里面分别包含了两个函数:shinyUI()
和shinyServer()
;但是现在的Shiny程序并不需要这样形式了,只需要一个app.R
,格式跟我们平时在RStduio中写的shiny程序一样,由三部分组成,如下:
Shiny的UI界面可用多个方式来展示,你可以用shiny基本布局函数+theme主题函数来实现;也可以用shinydashboard来定义你网页的布局,当然还有shiny的JS插件以及其他技巧。
GATK升级4.0版了,作为人类call variant的金标准软件,加上其强大的团队,每次重大更新都会给使用者带来一点新的东西(或者说是改变),我也正好整理下,将GATK基本分析流程过渡到4.0版本
要生成一个动态报告,我一般会首选html报告(网页版报告),其交互性以及页面更加丰富点;但是如果是要一份正规的报告,那么一般会选PDF报告
在前面一篇博文R Markdown学习中提到过,如果你是用RStudio来生成报告的话,还除了pandoc外(因为RStudio自带),还需要安装miktex(windows),因为这是基于latex的
看完https://rmarkdown.rstudio.com和https://bookdown.org/yihui/rmarkdown/,发现rmarkdown在这些创作者手里竟然演变出这么多功能,这里我挑几个个人比较喜欢的功能简单的记录一下