在2018年开始的时候,自己给整一年立了一个Flag:2018年的第一个FLAG
PCA实现过程梳理以及降噪处理
现在CNV分析方法有很多,但是随着NGS成本的降低,高深度的测序下背景下,read count(depth)方法逐渐变为各个分析软件的主流。最近在看GATK的CNV分析方法,其中在创建PoN(PanelofNormals)和denoise过程都使用了PCA(Principal Component Analysis)的奇异值分解(Singular Value Decomposition, SVD)方法,因此有比较对PCA思路做个梳理以及了解下常见的如何使用PCA来降噪(denoise)
Shiny用法整理(三)
继续整理shiny的几个用法
Download two or more plots in one download button
最近遇到的一个问题:如何在Shiny上通过download按钮同时下载多张图片。网上也有人提了相同的问题,但是没有给出合适的解决办法
Mutect2-肿瘤不同转移时期的免疫微环境异质性研究
Symbols count in article: 9.4k Reading time ≈ 9 mins.
本来只是单纯想用Mutect2来重复下文献的分析过程,结果变成了Mutect2的使用笔记。。GATK的Mutect2相关文档非常详细,思路及理念也讲的很清楚,FAQ也很完善https://gatkforums.broadinstitute.org/gatk/discussions/tagged/mutect2,是个很好的学习过程
Shiny-HTML
开头先推荐一个Shiny达人整理的一些Shiny Tips: Shiny tips & tricks for improving your apps and solving common problems
Python操作docx文档
Symbols count in article: 3.9k Reading time ≈ 4 mins.
最近学Python的一部分原因是我想用Python的docx包来写一个自动化生成word报告的脚本(需求产生动力),本来是打算用rmarkdown来出报告的,其对网页版支持比较好(样式也好看),对PDF支持也不错(毕竟可以依靠latex),但是对于word的可操作性并是不很好(可能使用的比较粗糙);最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下
Python基础学习(二)
Symbols count in article: 3.6k Reading time ≈ 3 mins.
字符串
Python将字符串、列表和元组都当做序列,因此可对序列操作的函数都适用于以上三者,因此在Perl中常用的索引、切片等操作都适用于字符串,这相比Perl就方便多了,如:
"Hello"[1]
Shiny Packages Resources
shinythemes
使用shinythemes包,可以给shiny app设置一个Bootstrap theme,使其看起来更加美观
所有的theme均来自于http://bootswatch.com/,现在这个包里所包含的theme有大约16种,我们可以在ui.R
里写入shinythemes::themeSelector()
来调用一个theme选择器,你可以在选择器的下拉框中依次查看每个theme的效果,示例代码展示网站:https://gallery.shinyapps.io/117-shinythemes/
如果确定选择某个theme后,则在ui.R
中用下述代码调用
theme = shinytheme("cerulean")
有从上述Bootstrap网站中下载的主题(未包含在shinytheme包),可以将bootstrap.css
放在www
文件夹下,然后再用theme参数调用theme = bootstrap.css
Galaxy生信分析平台-搭建(本地化)
生物信息分析平台可以有效的将非生信人员从生信软件中脱离,只专注于数据的输入与输出,不关注数据的具体分析过程
最近看到一篇可视化生信分析利器 Galaxy:本地部署文章,我也比较喜欢shiny这种工具(可以通过网站进行数据分析以及可视化),这点与Galaxy比较类似,但从平台角度来说,后者更加专业一点
Python基础学习(一)
Symbols count in article: 6.2k Reading time ≈ 6 mins.
最近花了点时间终于把Python拿起来学习下了(拖了N久了),虽然编程代码最终还是要落实到实际操作中多写才行,但是刚开始的基础语法学习还是比较重要(特别对于我这种半路出家的而言)。
虽然现在编程学习的网上资源非常多(尤其Python),但是我还是喜欢先从书看起,比如最先看的<【笨办法】学Pyhthon>这本书,把前面基础语法部分翻了后才发现是Python2的,果断放弃了,对于新入门的人来说,有Python3为何还要学Pyhton2呢。后来看了,应用场景讲了不少,但是基础语法却不够深入。最后还是挑了
SnpEff自建注释库及HGVS命名
Symbols count in article: 3.7k Reading time ≈ 3 mins.
最开始用SnpEff一直使用最近SnpEff提供的注释库,通过snpEff命令即可查找所需要的数据库名称
java -jar snpEff.jar databases |less -S
而且SnpEff官网也说明只用其默认的提供的数据库即可
Make bam index for long chromosomes
Symbols count in article: 1.5k Reading time ≈ 1 mins.
最近遇到一个问题,在对一个物种用GATK call variant时,发现在用MarkDuplicates
命令对bam文件标记重复,在运一小段时间后会卡住终止,命令如下:
gatk --java-options "-Xmx20G" MarkDuplicates \
-I A1_sorted_RG.bam \
-O A1_sorted_RG_marked.bam \
-M A1.metrics \
--CREATE_INDEX true \
--VALIDATION_STRINGENCY SILENT
但换picard软件来标记重复时却正常运行(只标记重复,不建index),然后排除下其他原因后,发现是MarkDuplicates
命令在对bam文件建index时报错
Blast+ 使用补充笔记
Symbols count in article: 3.7k Reading time ≈ 3 mins.
Blast比对软件大概是是短序列局部比对软件中最常用的一个了,但是其参数众多,一些参数一直没好好仔细研究过,如下:
初试GATK4-mutect2来call somatic mutation
Symbols count in article: 5.5k Reading time ≈ 5 mins.
癌症研究通常是将肿瘤组织和正常组织一起测序(WGS/WES),然后过滤掉种系突变(germline mutation),从而获得肿瘤组织的体细胞突变(somatic mutation)
- Somatic mutations – occur in a single body cell and cannot be inherited (only tissues derived from mutated cell are affected)
- Germline mutations – occur in gametes and can be passed onto offspring (every cell in the entire organism will be affected)
R Style(R 代码规范)
最近看到有朋友说起R代码书写规范的问题,突然让我意识到,从学R语言开始,似乎没怎么在书上提起过R代码风格。之前在学习Perl的时候,Perl语言入门这本书从最开始就提到了Perl代码的书写风格,但其实Perl的风格就是没有风格,只要不太过分随意就好(所以我现在除了看自己的Perl代码还流畅,看其他的人的Perl代码需要打起十二分的精神,似乎每个人都很随意~)
下载cBioPortal中的文章相关数据
Symbols count in article: 3.2k Reading time ≈ 3 mins.
之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据
R语言-Cox Model Assumptions
这篇笔记连标题都懒得想了(照搬教程标题。。。),继续接上篇R语言-Cox比例风险模型和上上篇Survival analysis(生存分析)
R语言-Cox比例风险模型
Cox比例风险模型(cox proportional-hazards model),简称Cox模型
是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型
Cox模型的基本假设为:
在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说其危险曲线应该是成比例而且是不能交叉的;也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍,那么在其他任意时间点的死亡风险也同样是2倍
R语言-Survival analysis(生存分析)
整理下最近看的生存分析的资料
生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法
其主要应用领域:
Cancer studies for patients survival time analyses(临床癌症上病人生存分析)
Sociology for "event-history analysis"(我也不懂)
engineering for "failure-time analysis"(类似于机器使用寿命,故障等研究)
使用maftools分析TMB和MATH
Symbols count in article: 4.8k Reading time ≈ 4 mins.
之前大致了解了些免疫疗法的相关内容,最近一篇文章深度长文:一文尽览PD-1/PD-L1/CTLA-4肿瘤免疫治疗分子标志物大全概括性的讲述了一些现在免疫疗法中生物标志物的相关内容,值得仔细看一看