KeepNotes blog

SAS-IML配置

Posted on 2021-01-18 In Programming-Notes , SAS
Symbols count in article: 2.3k Reading time ≈ 2 mins.

SAS 系统全称为 Statistics Analysis System，最早由北卡罗来纳大学的两位生物统计学研究生编制，并于 1976 年成立了 SAS 软件研究所，正式推出了 SAS 软件。经过多年的发展，SAS 已被全世界 120 多个国家和地区的近三万家机构所采用，直接用户则超过三百万人，遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。

SAS在读书那会就听说了，但是由于其极其贵。。而且在学术界用的似乎并不广？所以也就没接触过了。

R语言-中英文编码

Posted on 2021-01-18 In Programming-Notes , R
Symbols count in article: 584 Reading time ≈ 1 mins.

随手记一下

R语言在下载时是不区分语言版本的，但软件的语言版本是跟操作系统语言一致，比如win10操作系统设置为中文，则R语言安装后则是显示中文

临床试验非劣效性评估

Posted on 2021-01-14 In Biometrics , BiomedicalStats
Symbols count in article: 2.6k Reading time ≈ 2 mins.

本文只是对网上收集资料的简单整理

非劣效设计临床试验指导原则中：

当确证某个药物疗效时，优效试验（试验药与安慰剂、试验药的较低剂量或阳性药相比较的优效性）一般是理想选择。当优效试验不适用时，如使用安慰剂对照不符合伦理要求，可考虑采用非劣效试验。非劣效试验是为了确证试验药临床疗效，即使低于阳性对照药，但其差异也是在临床可接受范围之内。

Bootstrap Confidence Interval

Posted on 2020-12-29 Edited on 2021-01-14 In Statistics
Symbols count in article: 1.8k Reading time ≈ 2 mins.

一般在诊断试剂注册的临床试验中，对于acceptance criteria，一般是看其CI（confidence interval）的下限比较多（一般在sample size的时候也多设计下限条件）；不同acceptance criteria对应的CI计算方法也各有不同，但是也都是比较常见的几种：

诊断试验的一致性检验-Kappa

Posted on 2020-12-22 In Biometrics , BiomedicalStats
Symbols count in article: 1.8k Reading time ≈ 2 mins.

试验中如有金标准，在与金标准比较时，应报告灵敏性和特异性、阳性似然比和阴性似然比、阳性预测值和阴性预测值、其双侧95%置信区间。与非金标准比较时，应报告阳性一致性百分比、阴性一致性百分比、总体一致性百分比，仅仅使用“敏感性”和“特异性”描述新试验与非金标准的比较结果是不恰当的

而对于一致性的计算，使用Kappa检验的方法

Kappa检验由Cohen于1960年提出，因此又称为Cohen's Kappa

SOP（Standard Operating Procedures）和WP（ Working Procedures）

Posted on 2020-12-20 In Biometrics
Symbols count in article: 1.7k Reading time ≈ 2 mins.

以下内容均参考自：Differences between SOPs and WPs

相比学术界，在医药行业，SOP（Standard Operating Procedures）和WP（ Working Procedures）对我们至关重要；虽然在我刚毕业那几年，我几乎没接触过SOP。。。

在学术环境工作的人，假如刚进入工业界，通常会有一个不适用的地方，遇到一些意想不到的困难，其中一个原因可能就是缺少遵守严格的工业SOP的经验。假如面试的候选人不了解SOP，那么该候选人在工业界可能还有一段适应的过程

Save all console output to file in R

Posted on 2020-12-20 In Programming-Notes , R
Symbols count in article: 1.8k Reading time ≈ 2 mins.

在一些临床试验分析中，一般要求所有输出的结果中不能有errors和warnings；对于SAS而言，我们只需要查看SAS导出的log日记即可，但对于R而言，Rstudio/R都没有现成的功能来完成这个步骤。还好R可以通过sink()函数功能来实现

以下均是网上搜索整理的，若有更好的办法，可以交流下哈。。。

Precision assessment in tumor diagnosis (Immunological method)

Posted on 2020-11-09 Edited on 2023-08-10 In Biometrics , BiomedicalStats
Symbols count in article: 2.7k Reading time ≈ 2 mins.

免疫组织化学检测（IHC）是病理诊断中常用的一种检测手段，它是利用带标记的特异性抗体（或抗原）与组织内抗原（或抗体）进行特异性结合并通过化学反应使标记抗体显色，以此来对组织细胞内抗原进行定位、定性及定量的研究。

PD-L1免疫组化检测，作为当前肿瘤治疗领域中最具前景的研究方向之一，肿瘤免疫治疗是通过调动机体的免疫系统，增强抗肿瘤免疫力，从而抑制和杀伤肿瘤细胞

Agreement statistics in diagnostic accuracy

Posted on 2020-11-03 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 1.5k Reading time ≈ 1 mins.

一般我们是将检测结果跟临床金标准进行比较，常见的诊断指标如灵敏度、特异度、阳性预测值和阴性预测值等。但是当在方法学比较没有临床金标准（即对照方法不是临床金标准）时，那么我们就无法估计其实际的灵敏度和特异度，此时可以考虑用阳性一致性（positive percent agreement, PPA）和阴性一致性（negative percent agreement, NPA），这种情况还是比较常见的（比如在组织诊断中）

(Weighted) Deming regression

Posted on 2020-10-31 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 1.5k Reading time ≈ 1 mins.

以下内容参考EP09-A3和一些网上资料

平时研究工作中我们会用到最小二乘法的线性回归来做线性拟合；但是对于检测仪器（器械诊断领域）的方法学比较或者仪器间比较试，我们不仅要考虑Y所引入的随机误差，还需要考虑X所引入的随机误差，这时最小二乘法就不适用了，可以考虑用Deming回归

Time-dependent ROC 曲线

Posted on 2020-10-09 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 5.2k Reading time ≈ 5 mins.

概念

通常我们对于biomarker的预测模型会用ROC曲线来评价其性能，但是对于一些生存资料数据的预测模型或者需要加入时间因素，则会使用时间依赖（time dependent）的ROC曲线

Pivoting data in R

Posted on 2020-10-08 Edited on 2021-05-14 In Programming-Notes , R
Symbols count in article: 2.6k Reading time ≈ 2 mins.

R中一些包及函数，由于其实用便捷性，总会不经意间改变人们的代码习惯，比如pivot（旋转）数据

Sample size in IVD

Posted on 2020-09-06 Edited on 2023-07-07 In Biometrics , BiomedicalStats
Symbols count in article: 4k Reading time ≈ 4 mins.

适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值，样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度，根据灵敏度和设定的精确度可以估算所需的"有病"例数；如果诊断指标是特异度，根据特异度和精确度估算出的是"无病"的例数；如果诊断指标是ROC曲线下面积，根据ROC曲线下面和特定的精确度可以计算出"有病"的例数

Analysis of Reference Value

Posted on 2020-08-27 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 3.1k Reading time ≈ 3 mins.

以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)

以下只是笔记，可能不会详细描述细节

Reference interval一般是一个范围值，假如我们想知道95%的区间，则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上，一般取upper作为主要的reference limit

Fitting a Line to Scatter Plots(Regression Analysis)

Posted on 2020-08-27 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 3.6k Reading time ≈ 3 mins.

Fitting a Line to Scatter Plots

以下均参考自EP09-A3

临床实验室比对试验研究时，首先进行偏差图分析，如果不理想，再进行线性拟合回归分析。厂家在建立和确定对比声明时，必须进行回归分析

在做回归分析前需要先确定基本假设，这个假设是基于偏差图的结论；因此在确定选用何用回归方法前，需要先确定差值的分布情况

R语言-sva包处理批次效应

Posted on 2020-07-05 In Bioinformatics-Notes , TCGA
Symbols count in article: 1.9k Reading time ≈ 2 mins.

如果想合并多个GEO数据集或者TCGA数据集，批次效应是无法绕过的问题（尤其在寻找差异基因的时候）

在针对NGS数据，或者high-dimensional数据（gene expression/RNA sequencing/methylation/brain imaging data）而言，sva包是一个比较好的选择；sva包有三种处理artifacts的方法：

多项式回归（Polynomial regression）及线性检验

Posted on 2020-07-04 Edited on 2020-12-20 In Statistics
Symbols count in article: 3.1k Reading time ≈ 3 mins.

在临床实验中定量测定线性（范围）评价一般会用到EP-6A方法，其中有一步骤是用多项式回归分析及线性检验

所谓的线性检验，是指对每个非线性系数（多项式回归）作T检验，判断回归系数（b2,b3..bn）与零是否有显著性差异，其中b0与b1不反映非线性，故不需对其进行检验

Github多人协作-代码提交与冲突解决

Posted on 2020-06-25 Edited on 2021-08-31 In Learning-Notes , Essay
Symbols count in article: 593 Reading time ≈ 1 mins.

之前很少参与多人协作的开发，最多给一些开源项目提交一些bug或者代码，因此对于github的多人协作的操作处于只知其概念而不知道其如何实现。。。

合并RTF文件

Posted on 2020-06-25 Edited on 2020-06-28 In Learning-Notes , Essay
Symbols count in article: 3.1k Reading time ≈ 3 mins.

本来想先一篇SAS-从入门到放弃文章，但是想想我才看了2-3天的SAS，怕被打脸。。。但是说真的：

SAS真不能算一门编程语言（语法相对比较简单）
应用范围真不广，除了银行/药企还在招SAS程序员，其他应该比较少见了吧，网上资料也比较少
对于数据分析来说有过于繁琐（写一个小功能得写好多代码，这点真不能忍。。因为我觉得数据分析在保证准确率的前提下，更加需要考虑的是效率的问题，因为数据是有时效性的。。），更加不用说建模/探索性分析(EDA)/机器学习(ML)等等；虽然SAS有专门针对这些分析的模块，但是收费（你懂的。。。）

Using huxtables in rmarkdown to export RTF

Posted on 2020-06-22 In Programming-Notes , R
Symbols count in article: 4.9k Reading time ≈ 4 mins.

最近有个问题，如何用R来生成RTF报告，报告中包括一些表格和图表

这个需求在一些药企通常会用SAS来生成，但是我对于SAS不太熟练（虽然也会用一点SAS来生成一些常规表格）；并且觉得SAS过于繁琐，可拓展性不够，因此想找寻一种可用R来替代的方法