看啥推荐读物
专栏名称: xhog
联系方式 drlee0103@outloo...
今天看啥  ›  专栏  ›  xhog

TCGA选择性多聚腺苷酸化数据库

xhog  · 简书  ·  · 2020-04-24 13:42

虽然对于选择性多聚腺苷酸化(Alternative Polyadenylation, APA)的鉴定还是3'端测序好一些。但是的话,确实是由于RNA-seq的大样本数据,如果不使用的话还很可惜的。基于这个考虑。有人就发明了利用RNA-seq来评价APA事件的算法(DaPars)。

DaPars

由于RNA-seq数据的增多,为了使用RNA-seq来评价APA事件,所以就有人发明了DaPars算法。利用这个算法我们可以来评价RNA-seq当中的样本的APA事件。在这个算法里面,作者提出了一个远端PolyA位点使用占比(Percentage of Distal polyA site Usage Index, PDUI )的概念来评价APA事件。利用PDUI这个数值来评价APA事件的发生比例,PDUI的数值范围是0-1;如果PDUI接近于1则代表这个基因更多的存在长的3'UTR;如果PDUI接近于0则代表这个基因更多的存在短的3‘UTR。

这个算法的作者提供了一个python的脚本来计算APA事件( https://github.com/ZhengXia/dapars )。但是对于很多科研工作者而言使用python进行APA事件分析是很难的事情。所以这里就介绍几个基于DaPars分析的RNA-seq数据库。

目前公共的大型的数据库,主要还是TCGA和GTEx。由于这两个数据库也都基于RNA-seq来构建的,所以相对应的就是可以来进行APA事件评价了。

PS: 需要明确的一点是,使用DaPars算法来进行APA事件评价的时候,我们需要的是最原始的RNA-seq的数据,如果是在TCGA官网上下载的count/fpkm数据是不能用的。这种最原始的数据,如果想要使用的话,是需要和TCGA进行申请的。

TC3A

The Cancer 3′ UTR Atlas (TC3A, http://tc3a.org/ ) 是一个基于TCGA当中肿瘤数据来进行APA事件评价的数据库。这个数据库的作者就是发明DaPars算法的作者。为了这个数据库,作者还把算法升级了到DaPars2( https://github.com/3UTR/DaPars2 )。

TC3A总结了TCGA当中的所有肿瘤的APA事件,由于就是想做肿瘤的数据库,所以作者只使用了TCGA当中的肿瘤样本来进行分析。对于其中的正常样本就没有纳入进来。这个对于我们如果想要分析癌和正常的想法就实现不了了😂。

image

这个数据库使用了TCGA常用数据库cBioPortal数据库的可视化框架。所以我们看到的TC3A数据库和cBioPortal其实是差不多类似的。我们需要做的就是

  1. 选择癌种;

  2. 输入相关基因。

image

也不知道是本身cBioPortal框架的问题还是什么问题。这个数据库在进行检索之后对于结果的展示就十分的缓慢。目前只能通过文献里面的截图来观察这个数据库能干啥。通过文献的图片,我们可以看到。这个数据库可以比较APA事件评选指标PDUI在不同临床分析当中的差异;和预后的差异以及和本身基因表达的相关性等等。

image

那如果假如数据库确实是不好用了怎么办呢?作者十分友善的提供了原始数据下载的功能。在这里我们可以下载所有TCGA肿瘤当中,肿瘤样本的APA事件的PDUI数值。这样,虽然我们不用能数据库分析了,那可以把原始数据下载下来进行自定义分析嘛。

欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号

image.png



原文地址:访问原文地址
快照地址: 访问文章快照