今天看啥  ›  专栏  ›  奔跑的Forrest

RNAseq基础(项目设计,方法原理)

奔跑的Forrest  · 简书  ·  · 2020-06-05 22:03

一、项目设计

  1. 测多少数据量?
  2. 几个生物学重复?
  3. 混池测序是否性价比很高?
  4. 参考序列怎么选?

二、分析方法

  1. 转录本拼接
  2. 比对的两种模式
  3. 表达定量
  4. FPKM,RPKM,TPM,TMM
  5. 差异表达分析

1. 什么是基因组?

物种、亚种、个体、单细胞都可以测基因组。基因组是指一个细胞或者一个生物的完整序列,包括基因序列和基因间区域序列。在实际研究中,一个物种内的基因组差别不大,常说的是指物种的基因组,即参考基因组。
对于二倍体来说,两套染色体差异较小,常说的基因组是指单倍体的基因组,再加上差异较大的性染色体。

2. 转录组的研究对象

主要研究 mRNA ,但是生物体内 mRNA 只占一小部分(1%-5%) ,所以实验中应当提前去除其他RNA保留 mRNA。

mRNA 有编码蛋白质的能力,它又被称为编码 RNA 。而其他没有编码蛋白质能力的 RNA 则被称为非编码 RNA(ncRNA)。它们经由催化生化反应,或透过调控或参与基因表达过程发挥相应的生理功能。比如:
tRNA(转运RNA)在翻译过程中起转运RNA的作用
rRNA(核糖体RNA)于翻译过程中起催化肽链形成的作用
sRNA(英语:small RNA)(小RNA)起到调控基因表达的作用,比如组成剪接体的 snRNA ,负责 rRNA 成型的 snoRNA ,以及参与RNAi作用 的 miRNA 与 siRNA 等,可调节基因表达。

3. 转录组研究前提

相同基因在不同组织中表达不同
相同基因在同一组织中不同条件和时间中表达不同
因此,研究的转录组是指,某组织/细胞在特定条件下基因的转录情况。

4. 转录组测序流程理解

贴一个知乎专栏回答
https://zhuanlan.zhihu.com/p/139773946

5. 如何评价自己的测序结果和分析结果?

比如:

  • 10个生物学重复和3个生物学重复对于差异基因的表达有多大的提升?
  • 哪个差异表达鉴定软件更加准确?

引入以下指标, 准确率、召回率、PRC、F-measure

举例

这里精确率的计算方式,把正确的加起来除以总的,这里 A 捞上来的700条鲤鱼和 D没有捞上来的虾和鳖是正确的。(因为我们只想捞出来鱼不想要虾、鳖,没捞上来的鱼不应该,捞上来的虾鳖也不应该)
但是这样会有问题,如下
举例

如果只预测人都健康,那么这个精确率会很高,但是不符合实际。所以,需要引进更专业的数据。

这里会发现,准确率和召回率很难平衡,就像渔网网孔的大小一样,所以就又引入了一个指标,F-measure。
这里P代表准确率,R代表召回率

另外一组评价体系和指标, 敏感度、特异度、ROC、AUC

将捕鱼那个换一下概念

然后根据真阳性率和假阳性率作图,线条偏左上方的最好,如果难以判断就计算线条右下方的面积(AUC),面积越大说明真阳越多,假阳越少结果就越准确。

6. 转录组分析整体流程

  1. 提取 smallRNA或者 mRNA(最常用来研究的RNA)
  2. 随机打断
  3. 逆转录成 cDNA
  4. 测序
5.比对

有参考基因组的转录组

  1. 比对到参考基因组上计算表达量


    有参考基因组

无参考基因组的转录组

  1. 先整合测序结果,组装一个参考序列,再进行比对计算计算基因表达量


    无参考基因组

有参考基因组的可以额外多做一些东西,如:



7. 转录组项目设置

  • 取哪些样品?
    根据自己的实验设计来取样。
  • 设置几个重复?


  • 多少数据量?


    可以看出重复越多,测序量越大结果会越好。
    测序深度建议

8. 混池测序

在探究差异表达基因的时候不能混池测序,如果实在想混池,样本一定要多,80,100+,大量样本的混池,如果仅是对序列进行研究那么可以混池测序


9. Trinity 拼接原理

Inchworm Algorithm(将 reads 打断成 k-mer,通过 K-mer 算法构建线性序列)



使用这种方法拼出序列

同时为寻找可变剪切提供条件

Chrysalis(根据线性序列 k-1mer 的重叠关系进行组合,构建可变剪切的关系(德布鲁因图)一个图对应一个基因,不同的路径代表不同的剪接形式)


Butterfly(根据 reads 对各个路径的支持,选择最优路径,打印出最终的序列)


10. 比对到参考序列


比对软件选择



还有其他很多软件可以做

11. RPKM FPKM TPM

RNA-Seq 数据的定量之RPKM和FPKM
RNA-Seq 数据的定量基本假设以及TPM

所以需要标准化

推荐使用TPM

12. 样品间表达标准化

鉴定样品间基因的差异表达时,我们往往关心的是绝对表达量是否有差异,因此需要对组间的数据进一步标准化。如图:



此处显然由于 G5 基因表达过高,导致其他基因相对表达降低。

解决方法1:
内参基因(管家基因,看家基因):不同组织、不同条件下表达恒定的基因。


但是,看家基因数量不多,对于无参考基因组的物种来说也不现实,比较依赖基因注释结果。所以不太提倡使用。

解决方法2 :
假设大多数基因都是没有差异表达的

image.png

实际操作中,trinity里面有相应的 run_DE_analysis.pl 脚本可以使用

目前还有没 TPM 和 TMM 的结合

13. 利用假设检验进行差异表达基因的鉴定


一般使用 t 检验


可以参考之前写的关于FDR那些



原文地址:访问原文地址
快照地址: 访问文章快照