临床试验资料中常出现人工数据统计错误的问题,现有临床试验数据通常使用Excel进行数据的汇总及展示,合理利用Excel工具,可有效减少该类错误。
Excel作为一个表格工具,除了具有数据记录、筛选等常用的功能外,还有单元格引用及公式等用于统计分析的功能。可将这些功能在临床试验数据表格内部直接进行运算,对临床试验结果进行分析统计。下面以二分类指标的临床试验数据为例进行简要介绍。
一、数据转换
本文以申报试剂对临床诊断结果的灵敏度、特异度为例。临床试验数据表通常包括受试者(样本)编号、年龄、性别、样本类型、临床诊断结果、考核试剂检测结果等数据列。
为了利于后期统计分析,首先进行数据的转换。在Excel中,数据表中的临床诊断结果、考核试剂检测结果无论以“确诊/排除”或“+/-”的方式进行表示,均以文本格式进行记录。在进行条件判断时需要使用半角引号,并且无法进行运算,因此推荐将其转换为“0/1”的数字格式。下面以对“临床诊断”数据进行转换为例。
通过数据筛选可以看出,临床诊断中以“确诊”和“排除”进行表示。需将确诊转换为“1”,将排除转换为“0”。
在数据表格右侧加入“临床诊断”转换列,在与数据首行对应的单元格写如下公式:=IF(E2="确诊",1,0)
所引用单元格(E2)可以通过点击的方式自动写入。
按“回车”之后,可以看到数据表格显示的为“1”,即“确诊”。同理我们将考核试剂检测结果进行“0/1”转换。通过筛选功能可以看出考核试剂检测结果以“+/-”进行表示。在诊断转换结果列右侧加入“考核试剂检测结果”转换列,在与数据首行对应的单元格写如公式“=IF(F2="+",1,0)”,将考核试剂检测结果转换为“0/1”表示。
二、四格表判定
四格表分别用a、b、c、d表示四种检测结果与临床诊断结果之间的关系。
根据四格表的定义我们对上述转换后的临床诊断结果及考核试剂检测结果进行判定。
在数据表格右侧加入“四格表”判定列,在与数据首行对应的单元格将上述判定规则用公式表示:
=IF(G2=1,IF(H2=1,"a","c"),IF(H2=1,"b","d"))
按“回车”后该格子显示为转换后的四格表结果。
首行数据的转换和判定完成后,选中这三个单元格,将鼠标指针放在最右侧单元格的右下角,鼠标指针变为“+”号后向下拖拽填充所有有数据的数据行,完成公式填充并展示相应的结果。
图6.将转换、判定公式填充至全部数据行
三、构建四格表
首先,在数据表的空白表格处绘制一个四格表
其中G代表临床诊断结果,T代表考核试剂检测结果。根据四格表定义,四表格的每个格子分别统计在上述“四格表”统计结果列中相应字母的数量。以a格为例,该格子公式应写为:“=COUNTIF(I:I,"a")”
同理,根据定义将b、c、d格子修改为统计相应字母数量的公式。其中所统计的数据列(I:I)可以通过点击列名自动填入。四个格子统计完成后将汇总格公式修改为相应格子的求和公式,完成数据汇总。
四、数据统计
四格表最终结果通过灵敏度、特异度、总符合率及这三个率的95%置信区间进行表示。首先我们在上面已绘制的四格表下绘制展示这些统计量的表格。
根据统计量的定义在表格中写入相应的公式进行统计。例如,灵敏度是临床诊断为“确诊”的受试者中考核试剂检测结果为“阳性”的比例,那么在灵敏度点估计格子就写入公式:“=K3/K5”
同理,将其他点估计公式根据定义写到相应的单元格中。
置信区间的计算有多种方法,对于二分类数据目前其可信区间按二项分布近似正态计算,在极端情况不够保守,因此推荐按照威尔逊置信区间计算方法进行计算[1]。该公式相对复杂,可在文章末尾所提供的附件表格中进行查看。使用时将单元格内容保持与四格表的行、列相对位置关系进行粘贴即可展示结果。在数据计算完成后,将单元格格式修改为百分比。
图13.修改单元格格式
至此便完成了二分类结果的灵敏度、特异度及总符合率的统计。
五、注意事项
在使用Excel 进行上述统计时,应当特别注意原始数据的处理,应当用同样的方式表示结果的阴、阳性。在将多个中心的数据进行合并时可以进行手动的替换以保证数据进行“0/1”转换时的准确。
同时,在实际的工作中发现,在原始试验结果单元格中会在结果前有一个或多个不可见的空格,导致影响“0/1”结果的转换应当去除。
本文为一般情形下的二分类临床数据的统计分析的Excel工具使用举例,具体产品应根据实际情况选择使用,亦可选择其他统计工具。