0%

现在CNV分析方法有很多,但是随着NGS成本的降低,高深度的测序下背景下,read count(depth)方法逐渐变为各个分析软件的主流。最近在看GATK的CNV分析方法,其中在创建PoN(PanelofNormals)和denoise过程都使用了PCA(Principal Component Analysis)的奇异值分解(Singular Value Decomposition, SVD)方法,因此有比较对PCA思路做个梳理以及了解下常见的如何使用PCA来降噪(denoise)

Read more »

继续整理shiny的几个用法

Download two or more plots in one download button

最近遇到的一个问题:如何在Shiny上通过download按钮同时下载多张图片。网上也有人提了相同的问题,但是没有给出合适的解决办法

Read more »

本来只是单纯想用Mutect2来重复下文献的分析过程,结果变成了Mutect2的使用笔记。。GATK的Mutect2相关文档非常详细,思路及理念也讲的很清楚,FAQ也很完善https://gatkforums.broadinstitute.org/gatk/discussions/tagged/mutect2,是个很好的学习过程

Read more »

最近学Python的一部分原因是我想用Python的docx包来写一个自动化生成word报告的脚本(需求产生动力),本来是打算用rmarkdown来出报告的,其对网页版支持比较好(样式也好看),对PDF支持也不错(毕竟可以依靠latex),但是对于word的可操作性并是不很好(可能使用的比较粗糙);最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下

Read more »

字符串

Python将字符串、列表和元组都当做序列,因此可对序列操作的函数都适用于以上三者,因此在Perl中常用的索引、切片等操作都适用于字符串,这相比Perl就方便多了,如:

"Hello"[1]
Read more »

shinythemes

使用shinythemes包,可以给shiny app设置一个Bootstrap theme,使其看起来更加美观

所有的theme均来自于http://bootswatch.com/,现在这个包里所包含的theme有大约16种,我们可以在ui.R里写入shinythemes::themeSelector()来调用一个theme选择器,你可以在选择器的下拉框中依次查看每个theme的效果,示例代码展示网站:https://gallery.shinyapps.io/117-shinythemes/

如果确定选择某个theme后,则在ui.R中用下述代码调用

theme = shinytheme("cerulean")

有从上述Bootstrap网站中下载的主题(未包含在shinytheme包),可以将bootstrap.css放在www文件夹下,然后再用theme参数调用theme = bootstrap.css

Read more »

生物信息分析平台可以有效的将非生信人员从生信软件中脱离,只专注于数据的输入与输出,不关注数据的具体分析过程

最近看到一篇可视化生信分析利器 Galaxy:本地部署文章,我也比较喜欢shiny这种工具(可以通过网站进行数据分析以及可视化),这点与Galaxy比较类似,但从平台角度来说,后者更加专业一点

Read more »

最近花了点时间终于把Python拿起来学习下了(拖了N久了),虽然编程代码最终还是要落实到实际操作中多写才行,但是刚开始的基础语法学习还是比较重要(特别对于我这种半路出家的而言)。

虽然现在编程学习的网上资源非常多(尤其Python),但是我还是喜欢先从书看起,比如最先看的<【笨办法】学Pyhthon>这本书,把前面基础语法部分翻了后才发现是Python2的,果断放弃了,对于新入门的人来说,有Python3为何还要学Pyhton2呢。后来看了,应用场景讲了不少,但是基础语法却不够深入。最后还是挑了,至少基础知识讲的蛮详细的,适合像我这种新手的入门学习

Read more »

最开始用SnpEff一直使用最近SnpEff提供的注释库,通过snpEff命令即可查找所需要的数据库名称

java -jar snpEff.jar databases |less -S

而且SnpEff官网也说明只用其默认的提供的数据库即可

Read more »

最近遇到一个问题,在对一个物种用GATK call variant时,发现在用MarkDuplicates命令对bam文件标记重复,在运一小段时间后会卡住终止,命令如下:

gatk --java-options "-Xmx20G" MarkDuplicates \
    -I A1_sorted_RG.bam \
    -O A1_sorted_RG_marked.bam \
    -M A1.metrics \
    --CREATE_INDEX true \
    --VALIDATION_STRINGENCY SILENT

但换picard软件来标记重复时却正常运行(只标记重复,不建index),然后排除下其他原因后,发现是MarkDuplicates命令在对bam文件建index时报错

Read more »

Blast比对软件大概是是短序列局部比对软件中最常用的一个了,但是其参数众多,一些参数一直没好好仔细研究过,如下:

Read more »

癌症研究通常是将肿瘤组织和正常组织一起测序(WGS/WES),然后过滤掉种系突变(germline mutation),从而获得肿瘤组织的体细胞突变(somatic mutation)

  • Somatic mutations – occur in a single body cell and cannot be inherited (only tissues derived from mutated cell are affected)
  • Germline mutations – occur in gametes and can be passed onto offspring (every cell in the entire organism will be affected)
    Read more »

最近看到有朋友说起R代码书写规范的问题,突然让我意识到,从学R语言开始,似乎没怎么在书上提起过R代码风格。之前在学习Perl的时候,Perl语言入门这本书从最开始就提到了Perl代码的书写风格,但其实Perl的风格就是没有风格,只要不太过分随意就好(所以我现在除了看自己的Perl代码还流畅,看其他的人的Perl代码需要打起十二分的精神,似乎每个人都很随意~)

Read more »

Cox比例风险模型(cox proportional-hazards model),简称Cox模型

是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型

Cox模型的基本假设为:

在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说其危险曲线应该是成比例而且是不能交叉的;也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍,那么在其他任意时间点的死亡风险也同样是2倍

Read more »

整理下最近看的生存分析的资料

生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法

其主要应用领域:

  • Cancer studies for patients survival time analyses(临床癌症上病人生存分析)

  • Sociology for "event-history analysis"(我也不懂)

  • engineering for "failure-time analysis"(类似于机器使用寿命,故障等研究)

    Read more »