StatQuest学习笔记02——样本量与重复

前言 这是StatQuest视频教程的第6、第7个。
技术重复 现在考虑一个场景,我们要对一批人进行采血,并对这些血样进行基因表达的分析。此时我们先对A进行采血,A的血样我们会检测3次,这3次就叫技术重复(technical replicates),因为我们是对同一个样品进行了测序,研究其基因表达谱,这其实类似于我们做RT-qPCR中的复孔(RT-qPCR我们通常对同一个样本的同一个基因做3个复孔)。
做技术重复我们要解决的问题是:

  1. 能够对一个人的基因表达谱进行更加精确地检测;
  2. 能够评估一次实验数据是否精确,例如我们做了3次技术重复,这3次结果都非常接近,那么这批数据就非常可信,相反,如果这3次结果差异很大,那么这批数据就不太可信。通常来说,如果我们开发出了一种新的检测方法,3次技术重复是必不可少的。
再看下面的案例:
StatQuest学习笔记02——样本量与重复
文章图片
image 如果我们对同一个人采血,采血了3次,对这3次分别检测他的基因表达,这3次实验我们也认为是技术重复,因为此时研究的对象是同一个人。此时我们从这3次实验中可以获知一些方法之外的信息,因为这3次实验的差异(差异可能很小),可能与一些除了检测方法之外的因素有关。
生物学重复 现在我们再看一种情况,此时有三个人,分别为A,B,C,我们分别取他们的血样,进行基因检验,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 这三个分别来自于A,B,C三个人(男性)的重复称为生物学重复,生物学重复主要是为了研究一类对象中的基因表达情况,这个一类对象可以是人类,或者是小鼠,或者是植物,或者是细胞系(cell lines)。这个实验主要是为了研究男性的基因表达情况,从这些数据中你不太可能知道女性的基因表达情况。如果我只想研究Y染色体的基因表达情况,这就是一个很好的实验。但是,如果我想研究整个人类(包括男性与女性)的基因表达情况,我还需要检测女性的基因表达情况,然后汇总起来分析。
再来看一个情况。如果只检测A的基因表达情况,那么最终的结果只能说是研究了A的基因表达情况,而不是B或C的基因表达,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 技术重复和生物学重复的使用 在实际运用过得中,可以联合使用生物学重复和技术重复,这主要取决于实验类型。有时候如果增加更多的生物学重复,就可以不用技术重复,如果看文献的话,我们经常看到,某实验检测了几十个某病毒的基因表达谱,这些数据通常就不做技术重复,另外,还有一些实验,例如使用的是细胞系,细胞系的样本之间通常差异很小,都是由一个克隆长出来的,因此细胞系的通常也不做技术重复,只做2个生物学重复就行(有的还是做3个生物学重复),如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 样本量(simple size) 试想以下场景:
  1. 我们对蓝色男性的基因表达有兴趣;
  2. 我们是一个小鼠遗传学家,我们可以把这个蓝色的对象视为一种特殊品系的小鼠,例如C57BL/6;
  3. 我们对植物感兴趣,此时我们把这个蓝色的对象视为某个品种的树木。
先看第一种场景:我们要对这三个蓝色男性(此时这个蓝色男性不再表示一个人,而是某个民族,例如汉族)进行采血,然后检测其基因表达,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 这样,我们就检测了3次汉族男性的基因表达情况,此时我们用N来表示样本数目,此时N=3。即使我们对每个血液样本检测了2次基因表达情况,如下所示,此时的样本数目仍然是3:
StatQuest学习笔记02——样本量与重复
文章图片
image 其中一个样本的2次检测就是技术重复,只是用于评估基因检测方法是否精确,它不会告诉我们这3个样本之间的差异。如果我们研究基因检测方法的精确性,那么我们就需要多进行几次技术重复,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 此时,N=4(这个4表示对一个样本做了4次技术重复,注意与前面的生物学重复进行区分),我们要注意,技术重复只是在描述一个方法时才有意义。
有效样品量(effective sample size) 【StatQuest学习笔记02——样本量与重复】此时我们看一种比较复杂的情况,现在我们要研究一些男性基因表达谱的常规特征,这个时候就需要检测多个不同的男性,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 在这个方案里,我们要检测除了蓝色男性之外的其他男性的基因表达情况,也就是说,我们要检测蓝色,黄色,绿色男性的基因表达情况,此时N=3。此到很好理解N=3,但是,如果蓝色是双胞胎,我们检测了这4个人的基因表达情况,也就是如下所示的情况,此时N值就不一定等于3了,如果说N值为4,也有点不太对劲,如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 事实上,此时N值是位于3到4之间的数字。双胞胎其实也是两个不同的的,独立的人,但他们的基因是高度相关的,至少与黄色,绿色人相比,这两个蓝色人的基因更加相似:
StatQuest学习笔记02——样本量与重复
文章图片
image 如果我们计算一下这对双胞胎的基因相关性(correlation),那么我们就能计算出有效的相样量(effective sample size):
StatQuest学习笔记02——样本量与重复
文章图片
image 例如,如果我们计算出这对双胞胎的相关性是0.7(具体的计算过程先不要管),那么,有效的样本数就是如下所示的公式:
StatQuest学习笔记02——样本量与重复
文章图片
image 代入公式,则为:
StatQuest学习笔记02——样本量与重复
文章图片
image 因此,当这两个双胞胎高度相关时,他们就不能被视作是2个样本,而是1.18个样本:
StatQuest学习笔记02——样本量与重复
文章图片
image 如果这对双胞胎之间的相关性很低,比如说是0.1,那么代入公式,有效样本量就如下所示:
StatQuest学习笔记02——样本量与重复
文章图片
image 此时这两个双胞胎就相当于1.82个样本(这种算法很好理解,毕竟,如果两个人非常相似,就相当于是一个人了)。
在实际情况中,有效样本数的计算更加复杂,不过基本思想是一致的,也就是说,如果样本之间高度相似,它们不能被视为一个样本。
总结
  1. 技术重复用于评估方法的准确性。
  2. 生物学重复用于评估其个物种的特性;
  3. 涉及多个样本的时候,如果某两个样本比较相似,要考虑到有效的样本数。
补充知识点 effective sample size:

    推荐阅读