SAS 系统全称为 Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于 1976 年成立了 SAS 软件研究所,正式推出了 SAS 软件。经过多年的发展,SAS 已被全世界 120 多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。
SAS在读书那会就听说了,但是由于其极其贵。。而且在学术界用的似乎并不广?所以也就没接触过了。
SAS 系统全称为 Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于 1976 年成立了 SAS 软件研究所,正式推出了 SAS 软件。经过多年的发展,SAS 已被全世界 120 多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。
SAS在读书那会就听说了,但是由于其极其贵。。而且在学术界用的似乎并不广?所以也就没接触过了。
本文只是对网上收集资料的简单整理
当确证某个药物疗效时,优效试验(试验药与安慰剂、试验药的较低剂量或阳性药相比较的优效性)一般是理想选择。当优效试验不适用时,如使用安慰剂对照不符合伦理要求,可考虑采用非劣效试验。非劣效试验是为了确证试验药临床疗效,即使低于阳性对照药,但其差异也是在临床可接受范围之内。
一般在诊断试剂注册的临床试验中,对于acceptance criteria,一般是看其CI(confidence interval)的下限比较多(一般在sample size的时候也多设计下限条件);不同acceptance criteria对应的CI计算方法也各有不同,但是也都是比较常见的几种:
试验中如有金标准,在与金标准比较时,应报告灵敏性和特异性、阳性似然比和阴性似然 比、阳性预测值和阴性预测值、其双侧95%置信区间。与非金标准比较时,应报告阳性一致性 百分比、阴性一致性百分比、总体一致性百分比,仅仅使用“敏感性”和“特异性”描述新试验与 非金标准的比较结果是不恰当的
而对于一致性的计算,使用Kappa检验的方法
Kappa检验由Cohen于1960年提出,因此又称为Cohen's Kappa
以下内容均参考自:Differences between SOPs and WPs
相比学术界,在医药行业,SOP(Standard Operating Procedures)和WP( Working Procedures)对我们至关重要;虽然在我刚毕业那几年,我几乎没接触过SOP。。。
在学术环境工作的人,假如刚进入工业界,通常会有一个不适用的地方,遇到一些意想不到的困难,其中一个原因可能就是缺少遵守严格的工业SOP的经验。假如面试的候选人不了解SOP,那么该候选人在工业界可能还有一段适应的过程
在一些临床试验分析中,一般要求所有输出的结果中不能有errors和warnings;对于SAS而言,我们只需要查看SAS导出的log日记即可,但对于R而言,Rstudio/R都没有现成的功能来完成这个步骤。还好R可以通过sink()
函数功能来实现
以下均是网上搜索整理的,若有更好的办法,可以交流下哈。。。
免疫组织化学检测(IHC)是病理诊断中常用的一种检测手段,它是利用带标记的特异性抗体(或抗原)与组织内抗原(或抗体)进行特异性结合并通过化学反应使标记抗体显色,以此来对组织细胞内抗原进行定位、定性及定量的研究。
PD-L1免疫组化检测,作为当前肿瘤治疗领域中最具前景的研究方向之一,肿瘤免疫治疗是通过调动机体的免疫系统,增强抗肿瘤免疫力,从而抑制和杀伤肿瘤细胞
一般我们是将检测结果跟临床金标准进行比较,常见的诊断指标如灵敏度、特异度、阳性预测值和阴性预测值等。但是当在方法学比较没有临床金标准(即对照方法不是临床金标准)时,那么我们就无法估计其实际的灵敏度和特异度,此时可以考虑用阳性一致性(positive percent agreement, PPA)和阴性一致性(negative percent agreement, NPA),这种情况还是比较常见的(比如在组织诊断中)
以下内容参考EP09-A3和一些网上资料
平时研究工作中我们会用到最小二乘法的线性回归来做线性拟合;但是对于检测仪器(器械诊断领域)的方法学比较或者仪器间比较试,我们不仅要考虑Y所引入的随机误差,还需要考虑X所引入的随机误差,这时最小二乘法就不适用了,可以考虑用Deming回归
通常我们对于biomarker的预测模型会用ROC曲线来评价其性能,但是对于一些生存资料数据的预测模型或者需要加入时间因素,则会使用时间依赖(time dependent)的ROC曲线
R中一些包及函数,由于其实用便捷性,总会不经意间改变人们的代码习惯,比如pivot(旋转)数据
适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值,样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度,根据灵敏度和设定的精确度可以估算所需的"有病"例数;如果诊断指标是特异度,根据特异度和精确度估算出的是"无病"的例数;如果诊断指标是ROC曲线下面积,根据ROC曲线下面和特定的精确度可以计算出"有病"的例数
以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)
以下只是笔记,可能不会详细描述细节
Reference interval一般是一个范围值,假如我们想知道95%的区间,则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上,一般取upper作为主要的reference limit
以下均参考自EP09-A3
临床实验室比对试验研究时,首先进行偏差图分析,如果不理想,再进行线性拟合回归分析。厂家在建立和确定对比声明时,必须进行回归分析
在做回归分析前需要先确定基本假设,这个假设是基于偏差图的结论;因此在确定选用何用回归方法前,需要先确定差值的分布情况
如果想合并多个GEO数据集或者TCGA数据集,批次效应是无法绕过的问题(尤其在寻找差异基因的时候)
在针对NGS数据,或者high-dimensional数据(gene expression/RNA sequencing/methylation/brain imaging data)而言,sva
包是一个比较好的选择;sva
包有三种处理artifacts的方法:
在临床实验中定量测定线性(范围)评价一般会用到EP-6A方法,其中有一步骤是用多项式回归分析及线性检验
所谓的线性检验,是指对每个非线性系数(多项式回归)作T检验,判断回归系数(b2,b3..bn)与零是否有显著性差异,其中b0与b1不反映非线性,故不需对其进行检验
之前很少参与多人协作的开发,最多给一些开源项目提交一些bug或者代码,因此对于github的多人协作的操作处于只知其概念而不知道其如何实现。。。
本来想先一篇SAS-从入门到放弃文章,但是想想我才看了2-3天的SAS,怕被打脸。。。但是说真的:
最近有个问题,如何用R来生成RTF报告,报告中包括一些表格和图表
这个需求在一些药企通常会用SAS来生成,但是我对于SAS不太熟练(虽然也会用一点SAS来生成一些常规表格);并且觉得SAS过于繁琐,可拓展性不够,因此想找寻一种可用R来替代的方法