0%

一般我们是将检测结果跟临床金标准进行比较,常见的诊断指标如灵敏度、特异度、阳性预测值和阴性预测值等。但是当在方法学比较没有临床金标准(即对照方法不是临床金标准)时,那么我们就无法估计其实际的灵敏度和特异度,此时可以考虑用阳性一致性(positive percent agreement, PPA)和阴性一致性(negative percent agreement, NPA),这种情况还是比较常见的(比如在组织诊断中)

Read more »

以下内容参考EP09-A3和一些网上资料

平时研究工作中我们会用到最小二乘法的线性回归来做线性拟合;但是对于检测仪器(器械诊断领域)的方法学比较或者仪器间比较试,我们不仅要考虑Y所引入的随机误差,还需要考虑X所引入的随机误差,这时最小二乘法就不适用了,可以考虑用Deming回归

Read more »

概念

通常我们对于biomarker的预测模型会用ROC曲线来评价其性能,但是对于一些生存资料数据的预测模型或者需要加入时间因素,则会使用时间依赖(time dependent)的ROC曲线

Read more »

R中一些包及函数,由于其实用便捷性,总会不经意间改变人们的代码习惯,比如pivot(旋转)数据

Read more »

适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值,样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度,根据灵敏度和设定的精确度可以估算所需的"有病"例数;如果诊断指标是特异度,根据特异度和精确度估算出的是"无病"的例数;如果诊断指标是ROC曲线下面积,根据ROC曲线下面和特定的精确度可以计算出"有病"的例数

Read more »

以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)

以下只是笔记,可能不会详细描述细节


Reference interval一般是一个范围值,假如我们想知道95%的区间,则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上,一般取upper作为主要的reference limit

Read more »

Fitting a Line to Scatter Plots

以下均参考自EP09-A3

临床实验室比对试验研究时,首先进行偏差图分析,如果不理想,再进行线性拟合回归分析。厂家在建立和确定对比声明时,必须进行回归分析

在做回归分析前需要先确定基本假设,这个假设是基于偏差图的结论;因此在确定选用何用回归方法前,需要先确定差值的分布情况

Read more »

如果想合并多个GEO数据集或者TCGA数据集,批次效应是无法绕过的问题(尤其在寻找差异基因的时候)

在针对NGS数据,或者high-dimensional数据(gene expression/RNA sequencing/methylation/brain imaging data)而言,sva包是一个比较好的选择;sva包有三种处理artifacts的方法:

Read more »

在临床实验中定量测定线性(范围)评价一般会用到EP-6A方法,其中有一步骤是用多项式回归分析及线性检验

所谓的线性检验,是指对每个非线性系数(多项式回归)作T检验,判断回归系数(b2,b3..bn)与零是否有显著性差异,其中b0与b1不反映非线性,故不需对其进行检验

Read more »

本来想先一篇SAS-从入门到放弃文章,但是想想我才看了2-3天的SAS,怕被打脸。。。但是说真的:

  • SAS真不能算一门编程语言(语法相对比较简单)
  • 应用范围真不广,除了银行/药企还在招SAS程序员,其他应该比较少见了吧,网上资料也比较少
  • 对于数据分析来说有过于繁琐(写一个小功能得写好多代码,这点真不能忍。。因为我觉得数据分析在保证准确率的前提下,更加需要考虑的是效率的问题,因为数据是有时效性的。。),更加不用说建模/探索性分析(EDA)/机器学习(ML)等等;虽然SAS有专门针对这些分析的模块,但是收费(你懂的。。。)
Read more »

最近有个问题,如何用R来生成RTF报告,报告中包括一些表格和图表

这个需求在一些药企通常会用SAS来生成,但是我对于SAS不太熟练(虽然也会用一点SAS来生成一些常规表格);并且觉得SAS过于繁琐,可拓展性不够,因此想找寻一种可用R来替代的方法

Read more »

前段时间逛Kaggle的时候,发现有个对于Covid-19的预测比赛(COVID19 Global Forecasting (Week 4)),其给出的数据有以下几列:

  • Province_State,省
  • Country_Region,国家
  • Date,日期
  • ConfirmedCases,确诊人数
  • Fatalities,死亡人数
    Read more »

Generalized ESD Test (ESD)是Rosner教授基于Grubb's Test(或extreme studentized deviate (ESD) test)改进的识别离散值的方法

因为ESD的备择假设是数据集中有一个异常值,而现实情况下数据集中异常值不止一个;因此Rosner提出了GESD(泛化版ESD)

Read more »

整理下几个概念:

  • Risk/Absolute Risk (AR)
  • Relative risk (RR)
  • Absolute Risk Reduction (ARR) 或 Absolute Risk Difference (ARD)
  • Relative Risk Reduction (RRR) 或 Relative Risk Difference (RRD)
  • Number Needed to Treat (NNT)
  • Odds Ratio (OR)
Read more »

最近在陆陆续续收集一些可视化Covid-19数据的一些方法,主要想用R来实现;一方面对R比较熟悉,另一方面是作为后续整合到Shiny的前期准备工作,最终实现用Shiny平台来全面展示全球Covid-19的数据,类似做一个这样的网页:opsdashboard

Read more »

我在maftools包的PlotOncogenicPathways函数分析了TCGA已知的10个致癌信号通路,统计了maf文件中在各个通路下的基因数目以及患者人数等信息

我发现数据集A在TGF-Beta通路中有5个基因发生突变,数据集B则有1个基因发生突变;我想知道这两个数据集(以某个指标区分开的)在TGF-Beta通路的基因突变比例是否有显著的统计学意义

Read more »

偶尔在查阅资料的时候发现一种动态排名条形图(bar chart race),最初应该是在别人展示各国GDP的时候见过,我查了下,其是用Flourish完成的,我正好用其来可视化Covid-19全球疫情数据

Read more »

最近工作上接触到一些Covid-19新冠病毒一些信息,平时也常常看到国内外各个地区确诊患者不断的增加,但是还有一些我想了解的数据并没有在一些主流媒体上呈现出来;因此想通过自己的方式来可视化这些数据,依次解决以下问题:

  • 下载整理每天确诊/死亡/治愈的患者数据
  • 通过地图可视化方式来呈现各国各地区的最新患者数目
  • 使用常规图标来呈现各国患者的变化趋势
    Read more »