科研论文中p值和显著性水平的关系 P值及其计算方法(3)
科研论文中p值和显著性水平的关系
步骤3:单侧(one-tail)或双侧(two-tail)测试
(在某些资料上也被称为one-side或two-side测试)
在获取P值之前需要确定采用单侧测试还是双侧测试更恰当。
· 单侧测试在一个方向上检查两组对象数据之间的关系,例如药物使病人病情改善;
· 而双侧测试从正反两个方向上进行测试,例如药物使病人病情改善或者恶化。
如果您不确定结果会朝哪个方向发展,那么采用双侧测试也是OK的。
单侧或者双侧的选项在最后我们在t值表上查询p值的时候需要用到。
步骤4:确定样本数
接下来,确定样本数满足统计需要。
实际上这是一个先决条件,必须 在实验测试之前 或者 在实验后处理数据之前 确定我们至少需要获得多少样本才能确保置信度或者显著性能够到达期望的显著性标准。
因为在实操当中往往有些样本因为无效而被排除,这很可能导致样本数达不到要求,因此在完成实验之后进行数据处理的时候也需要重新核实样本数满足下限要求。
确定样本数下限,我们需要进行 统计功效分析 。如果样本数太少会使置信度(或者显著性)不足,造成假阴性的结论,而样本数太多则会增加统计的实施成本,费了力却讨不到多少好。一般来说,统计功效越高假阴性的可能性就越低。
功效分析包括四个主要部分:
· 效应量 ,它告诉我们结果在被统计群体中的影响力大小,如果效应不足,即便显著性达标也不能说明结果的实用性;
· 样本数量 ,它告诉我们样本中有多少个观测值;
· 显著性水平 ,即α值;
· 统计功效 ,即我们接受对立假设的概率;
许多实验均采用80%的典型功效(或1-β,β称为假阴性率),进行分析。这个值也只是人为确定的经验值,可以根据需要更改。进行功效分析可让我们知道在指定的置信区间上达到统计显著性所需的样本数量,即通过指定β值和α值求出必要的样本数。
由于统计功效计算相对复杂,一般会利用工具软件进行计算。
上图:两类统计错误。
零假设为真,但被拒绝,此为第一类错误,或者α错误;
零假设为假,但未被拒绝,此为第二类错误,或者β错误;
足够的样本数就是为了尽量规避β错误。
步骤5:计算标准差
标准差 s (有时也写成 σ,全称是"标准偏差")可以让我们知道数据的分散程度(越大越分散)。这是统计学上最常用的概念,其计算也不复杂。
样本标准差公式为:
在这个方程式中
· s 是标准偏差
· ∑ 是求和的意思
· xi 是每个单独的数据
· 带上划线x 是每组数据的平均值
· n 是总样本数量(这里用n-1而不是n是为了降低系统误差,在描述性统计中会采用n而非n-1作为标准差计算;当n趋近无穷大时,这两种计算方法的结果会趋近)
步骤6:计算标准误差
(注意 标准偏差 和 标准误差 的差别)
在上一步我们已经求得了两个标准差,接下来我们需要求两组数据的标准误差。计算公式如下: