今天看啥  ›  专栏  ›  珠江肿瘤

《陈巍学基因》笔记③PacBio单分子测序

珠江肿瘤  · 简书  ·  · 2020-05-06 08:25

在开头的两期我们介绍了 illumina 公司的二代测序技术以及 HiSeq 测序仪,不知道大家是否被其工程师高超的智商和解决方案所折服呢~接下来我们也会陆续介绍其他厂商的各种测序方案。

「本期先让我们一同了解 PacBio 公司的三代测序技术吧~」

目录

  • 第三期原视频(可关注文末公众号观看)
  • SMRT 技术
    SMRT™ Cell
  • 测序流程
    哑铃状文库
    测序
  • 单分子测序
    读长限制因素
    数据通量
  • 其他应用
    甲基化判定
    GC Bias

视频讲述内容基于当时的RSII平台,本文将结合当下的Sequel平台进行介绍。

SMRT 技术

SMRT™,全称「Single Molecular Real Time Sequencing」,中文可译为单分子实时测序技术[1],是一项基于第二代 SBS 测序技术研发的第三代测序技术。第三代测序除了延续对高通量测序技术的应用,更着重于对单分子核酸的测序,其中Sequel平台的平均读长可超 10kb。

SMRT™ Cell

与第一期一样,我们先从测序芯片开始介绍。这是一张厚度为 100nm 的芯片,有效面积如人拇指指甲盖大小,一面带有 15 万个直径为几十纳米的纳米孔,称为 ZMW。一张芯片上的有效纳米孔能同时进行测序,一次就可得几亿个碱基序列。

SMRT™ Cell - PacBio

ZMW

ZMW - PacBio

看到这张图是不是感到似曾相识呢?当然这不是 illumina 的 NanoCell,其中的纳米孔是 PacBio 的 ZMW,全称「Zero Mode Waveguide」,中文可译为零模波导管。其命名是由于纳米孔底部具有特殊的光学设计,激发光在纳米孔中衰减极快,只有在距底部 30nm 范围内的 dNTP 才能被激光出荧光信号,从而降低了测序的荧光背景噪音,有效提高测序的准确度。

🔎
其光学设计可以简单且不严谨地用「波粒二象性」做出解释。

虽然同样基于 SBS 技术开发,但与 illumina 将荧光基团标记于碱基上不同,

PacBio 对 dNTP 的处理是将荧光基团标记在 3’端的磷酸基团末端。

荧光标记的dNTP - PacBio

这样做有两个好处,既减短时间,又能延长读长:

  1. 当 dNTP 与 DNA 链聚合时,荧光基团就会随 PPI 一同被切掉,随溶液漂走,省去单独切去荧光基团的过程。
  2. 减少 DNA 合成的空间位阻,有效延长读长,而且能最大限度地保持天然聚合酶的活性,无需对其再加以人工改造。

在RSII平台的实际测序中,每个托盘有 张 SMRT™ Cell,配合相关机器可以大幅提高测序的自动化程度。




测序流程

哑铃状文库

PacBio 的建库也是比较特别的。再将 DNA 打碎补齐后,其加上的接头是发夹状的接头序列(如图蓝色序列),最后形成哑铃状的 DNA 文库。



显而易见,这样整个 DNA 分子就是一个圆环,也就是说,聚合酶可以周而复始地进行测序,有利于 PacBio 发挥其读长的优势,通过重复测序,也能提高其测序准确度。

测序

  1. 聚合酶和文库被固定在 ZMW 的底部。

🔎

其固定方式为 「生物素-亲和素系统」

在聚合酶上标上生物素,在纳米孔的玻璃底板上标上链霉亲合素,利用生物素和链霉亲合素的亲合力,将两者紧密结合。

  1. 加入荧光标记的 dNTP 底物。

  2. 符合碱基配对原则的 dNTP 会聚合到新生成的 DNA 链上。

这时激发光使 dNTP 发出荧光信号,通过对荧光信号可以判读四种碱基,通过感光原件输入到电脑。

🔎
自然状态下,聚合酶每秒能合成约1k 碱基对。
为了能让电脑捕捉,这里使用的聚合酶反应速率必须足够慢,每秒能合成约三个碱基。

  1. 随着新一轮碱基配对,荧光基团被切断漂走。
动画3、4 - PacBio
  1. 循环往复,完成测序。
    (需时约 3 小时)

测序速率

由于 PacBio 使用 SBS 技术,以每秒合成(即测序)三个碱基计算,要达到其最大读长需要三个小时左右。也就是说跑一个 Run 只需要三个小时,比 illumina 按天数计算的测序速率和另一家测序设备公司 Ion Torrent 约 5h 的测序速率都要快。



单分子测序

可以说,单分子测序是 PacBio 超长读长的优势来源。

上一期我们谈到,在 illumina 通过 PCR 扩增测序一簇分子时,总会出现 Phasing & Prephasing。随着读长变长,其带来的噪音也会越来越大,直至掩盖掉正常的测序信号。

那要如何解决这个问题呢?illumina 一直在尝试各种生化及计算机手段减缓 Phasing & Prephasing 的影响,而 PacBio 的做法就更为简单——不进行 PCR 扩增,只测序单个核酸分子。由于不存在同步的问题,单从这方面看,其读长理论上可以做到无限长。

读长限制因素

当然以上说法在现实中是不存在的,现实中有很多因素制约着其测序的实际读长,以下为主要的因素。

激发光

  1. 强光 长时间 照射 DNA 可能会使环形 DNA 链断开,从而使测序终止。
  2. 强光也可能使酶变性,使其失去应有功能,导致聚合速率加快或测序终止。

建库
以现有建库方式,即使是自动化操作,要制作长度超过 30Kb 的文库有一定的技术难度。

碱基判读不准
PacBio 最大的缺点就是对碱基判读的错误率高达 12.5%,也就是说,它每读 8 个碱基,就有一个是读错的。

它主要的错误类型是插入,即它会多读一个碱基。不难想到,在同聚物区段(一连串的相同碱基)进行测序时,错误率会更高。

这是其生化方法中产生的随机错误,随着测序深度增加,这些偶然误差可以在统计学上被校正成正确序列。

🔎
虽然可以通过统计学校正序列,但是这也为其带来一个致命缺点:
「计算机无法区分单次测序错误和罕见的基因突变。」

数据通量

当时,一个 SMRT 芯片可以给出约 5 万条有效 reads,并得到约 0.4G 的有效数据量。可以说,通量是 PacBio 目前的死穴。

限制因素

  1. 纳米孔数量及上样质量。

虽然目前的芯片能做到 15 万个纳米孔,但并非每个孔都能产生有效数据。在上样过程中, 「聚合酶、引物、模板」 组成的测序复合物被随机铺撒到这 15 万个纳米孔,过程符合泊松分布。

也就是即使在最理想的情况下,只是有1/3的纳米孔是正好有一个测序复合物,另外有1/3的纳米孔是多克隆, 的纳米孔没有接收到复合物。

空的纳米孔不会产生信号;多克隆的纳米孔产生的信号非常杂乱,所以只有1/3的单克隆纳米孔才能产生有效的数据——5 万个有效孔乘以 10kb 平均读长,算上损耗就是 0.4G 的有效数据量。

除了增加纳米孔数量,还可以通过优化上样流程,增加出现单克隆纳米孔的概率。

  1. 聚合酶延伸性和碱基配对准确率。

目前,在 P6C4 试剂下,大约每 SMRT™ Cell 已经可以做到 0.6G ~ 1G 有效数据量,个别用户能达到 2G。



其他应用

甲基化判定

当聚合酶,遇到模板上有甲基化的 A、C 等碱基时,它测序的速度会明显地放慢,而且其光谱特征会发生改变。再通过相应的机器学习算法,就可以判断,这个位置上的 DNA 是否被甲基化。


GC Bias

在 PCR 过程中,遇到 G、C 碱基时,PCR 的效率会降低,由此导致的当 G、C 含量偏高的序列时产生的 reads 数偏少,这种现象称为 「GC Bias」

🔎
其原理可以通过 G、C 配对形成三条氢键做解释。

而由于 PacBio 测序没有 PCR 过程,在序列中高 GC 的片段和低 GC 的片段有差不多的概率被读到。通过 SMRT 测序就可以轻松测序富含 AT 或 GC 的区域、高度重复的序列、长同聚物和回文序列。

某人类样本中GC覆盖率 - PacBio

以上是本期文章全部内容,如需更详细了解 PacBio 测序背后的生化原理和工作流程可登录PacBio 官方网站[2] ,再次感谢各位读者的支持!

References

[1]Eid, J., Fehr, A., Gray, J., Luong, K., Lyle, J., Otto, G., ... & Bibillo, A. (2009). Real-time DNA sequencing from single polymerase molecules. Science, 323(5910), 133-138.:
http://dx.doi.org/10.1126/science.1162986
[2]SMRT SEQUENCING - PacBio:
https://www.pacb.com/smrt-science/smrt-sequencing/




原文地址:访问原文地址
快照地址: 访问文章快照