前段时间逛Kaggle的时候,发现有个对于Covid-19的预测比赛(COVID19 Global Forecasting (Week 4)),其给出的数据有以下几列:
- Province_State,省
- Country_Region,国家
- Date,日期
- ConfirmedCases,确诊人数
- Fatalities,死亡人数
前段时间逛Kaggle的时候,发现有个对于Covid-19的预测比赛(COVID19 Global Forecasting (Week 4)),其给出的数据有以下几列:
Generalized ESD Test (ESD)是Rosner教授基于Grubb's Test(或extreme studentized deviate (ESD) test)改进的识别离散值的方法
因为ESD的备择假设是数据集中有一个异常值,而现实情况下数据集中异常值不止一个;因此Rosner提出了GESD(泛化版ESD)
整理下几个概念:
整理下一些评价指标,一般数据是从下面这种frequency表开始统计的
最近在陆陆续续收集一些可视化Covid-19数据的一些方法,主要想用R来实现;一方面对R比较熟悉,另一方面是作为后续整合到Shiny的前期准备工作,最终实现用Shiny平台来全面展示全球Covid-19的数据,类似做一个这样的网页:opsdashboard
我在maftools
包的PlotOncogenicPathways
函数分析了TCGA已知的10个致癌信号通路,统计了maf文件中在各个通路下的基因数目以及患者人数等信息
我发现数据集A在TGF-Beta通路中有5个基因发生突变,数据集B则有1个基因发生突变;我想知道这两个数据集(以某个指标区分开的)在TGF-Beta通路的基因突变比例是否有显著的统计学意义
偶尔在查阅资料的时候发现一种动态排名条形图(bar chart race),最初应该是在别人展示各国GDP的时候见过,我查了下,其是用Flourish完成的,我正好用其来可视化Covid-19全球疫情数据
最近工作上接触到一些Covid-19新冠病毒一些信息,平时也常常看到国内外各个地区确诊患者不断的增加,但是还有一些我想了解的数据并没有在一些主流媒体上呈现出来;因此想通过自己的方式来可视化这些数据,依次解决以下问题:
在Co-mutation and exclusion analysis in R这篇文章中提到maftools
包的somaticInteractions()
函数可以做Co-mutation/exclusion分析及可视化
由于结果图中展示的颜色有点问题,因此我去查看了下其源码,发现其是参考文献:Combining gene mutation with gene expression data improves outcome prediction in myelodysplastic syndromes
在生物信息分析中,有时会看下基因突变之间是否会表现出mutual exclusion或者co-occurrence模式
在R中可以用maftools
包的somaticInteractions()
函数即可分析,如下所示
读取/处理word documents (docx)的R包有:
Confusion Matrix,及混淆矩阵,用于展示模型预测精度的一种较为常见的方法;其属于分类模型评价方法中的一种,其他还有收益图(Gain),提升图(Lift),ROC等
对于最常见的二元分类来说,它的混淆矩阵是2x2
的,以wiki图为例:
记录下dplyr包的一些有用的操作函数
找到一个Shiny资源,分享下。。。非常好用的工具集!
推荐三篇关于Shiny module使用技巧的博文,相比shiny官网中的module相关教程,其更加深入的介绍了一些用法(PS. 是一家名为ArData的公司写的,其有open source里有几个R包蛮有名的--officer包和flextable包):
有些服务器会有无法用https访问网站的问题,如:
URL 'https://cran.rstudio.com/src/contrib/PACKAGES.rds': status was 'SSL connect error'
在之前Shiny reference resoures中提到一篇book(Engineering Production-Grade Shiny Apps),里面提到构建一个R package来展示以及分享Shiny app,并且推荐用golem包来搭建Shiny app package的框架
{golem} is an opinionated framework for building production-grade shiny applications
最近找shiny resource,发现shiny的shinyWidgets拓展包使用着非常不错,能给shiny各个控件润色不少,记录下一些有趣的功能
示例概览可以看官方文档:Widgets available
Function reference包含了shinyWidgets包所有的函数,点击后可查看具体某个函数的示例
为了方便后续的使用,我对一些函数的大体功能做了整理,便于个人使用
最近由于工作上的需求重新整理了下Shiny资料,以及在网上找了些新的东西学习了下,一些个人觉得蛮适合shiny学习的资料在此分享一下。。。后续还会整理下实用的Shiny extend packages
Odds ratio(OR)从字面上可看出,是两个odds的ratio,其用于:
在病例对照研究(case-control study)中,分析暴露风险因素与疾病(或者用药)的关联程度;主要是反映暴露与疾病之间关联强度的指标,OR常适用于病例对照研究,也可以运用于前瞻性的研究(当观察时间相等时)
与其相似的有个指标relative risk(RR),其可以理解为risk ratio,用于:
在队列研究(cohort study)中,分析暴露因素与发病的关联程度;主要是反映暴露与发病(死亡)关联强度的最有用的指标,RR适用于队列研究或随机对照试验。