DAVID数据库简介及使用说明

翾格格 · 简书 · · 2021-04-29 11:12

很高兴今天给大家介绍DAVID数据库，因为DAVID不仅是个生物数据库，也是一款在线分析软件。可以用来做基因的差异分析，也可用于通路的富集。他可以将输入列表中的基因，关联到生物注释上。依旧第一步，介绍DAVID网址： https://david.ncifcrf.gov 其实利用百度引擎也能快速检索到。在页面主页上，有该数据库的概要及其DAVID工具能够行使什么功能。具体如下图，有列表

1）Identify enriched biological themes, particularly GO terms

2）Discover enriched functional-related gene groups

3）Cluster redundant annotation terms

4）Visualize genes on BioCarta & KEGG pathway maps

5）Display related many-genes-to-many-terms on 2-D view.

6）Search for other functionally related genes not in the list

7）List interacting proteins

8）Explore gene names in batch

9）Link gene-disease associations

10）Highlight protein functional domains and motifs

11）Redirect to related literatures

12）Convert gene identifiers from one type to another.

And more

鼠标移至“Shortcut to DAVID Tools”,下拉菜单中有四个主要功能1）Functional Annotation（功能注释）a)Functional Annotation Clustering:使用模糊聚类方法，对被注释上的 Terms 做聚类，即 Terms 被分成多组，并将给出聚类的分值。分值越高，代表该组内的基因在基因列表中越重要。 b)Functional Annotation Chart：进行 GO 功能富集分析和 KEGG

pathway 富集分析。C)Functional Annotation Table：该工具实现了基因的功能注释，将输入列表中每个基因在选定数据库中的注释以表格形式呈现。2）Gene Functional Classification（基因功能聚类），通常将功能相关的基因聚集在一个单元，分值越高，代表该基因重要性越高。3)Gene ID Conversion：对基因不同表示方法进行转换。4）Gene Name Batch Viewer：显示基因名称，ID，所属物种及相关基因。

接下来我们用示例来介绍它的功能注释，以PDCD1，CTLA4，LAG3，TNFRSF18，CD80 ，FOXP3 为例。首先我们选择“Shortcut to DAVID Tools”，再点击“Functional Annotation”。在左上角Upload中输入多基因列表，可以每行一个基因或者用逗号隔开。在选择相应物种，如人选择human，在选择identifier,如果是基因ID则选择GENE ID，这里我们是用了基因名称，选择了official-gene-symbol。下一步点击USE。在右侧跳出注释概要信息，点击“Disease”，我们可以看到这些基因和哪些疾病有关联。“Functional_Categories”功能类别，点击右侧长条可以显示这些基因参与了哪些功能，如凋亡,3D结构等。

继续下拉，有“Gene_Ontology”，主要包括三个方面，BP（生物学过程，biological process）,CC(细胞组分，cellular component), MF(分子功能，Molecular Function)。通过GO富集分析，可以查阅这些基因生物学功能，定位和生物过程。

我们可以选择这三个TERM一起分析，如果需要单独分析，点击你想要分析的TERM，下拉菜单，点击“Function Annotation Chart”进行富集分析。在跳出来的结果中，我们发现有9个chart records，表格中右侧“count”则显示该TERM对应你的几个基因，点击上侧“options”，我们可以把FDR选择上（注：FDR:DAVID中的FDR要求自适应线性升压调整p值，以近似控制错误发现率，如Benjamini和Hochberg（2000）中所讨论的。使用最小斜率法估计真零假设的数）。右击“ DownloadFile”，链接保存txt格式后，用EXCEL打开该数据。

在打开的excel文档中，我们挑选GO-term, Count， p 值和 FDR 值。增加一列，对p值进行-LOG（）转换，保存为文本格式。利用MID函数(字符串，起始位置，保留字符的个数）将TERM波浪号以及之前的内容删除，利用新的term和count进行作图，利用EXCEl的插入图形按钮，点击“二维条形图”进行绘制。这里我觉得WPS的表格比OFFICE好用的太多了。然后我们通过升序排列整齐。按自己的需求编辑表格格式。同样我们也可以粘贴为三线表格式。

前面介绍了利用DAVID在线分析工具进行GO注释，接下来介绍利用DAVID进行KEGG富集分析，操作如前，我们在LIST输入我们的多个基因，在功能注释界面，我们选择“Pathways”,同样我们以PDCD1，CTLA4，LAG3，TNFRSF18，CD80 ，FOXP3 为例。我们点击右上角“clear all”，选择“KEGG Pathway”,点击“Function Annotation Chart”，我们可以看到我们检索的基因有4个records。点击TERM，可以查到富集的信号通路，今天很意外的是我没有打开，可能服务器出现了问题，显示service unavailable。可能换个时间段就可以了。

另外我们常用功能就是对其GENE ID转换，如official symbols和 GENE ID间转换，这里就不一一演示了。

今天就简单介绍这里，咱们后期再见。

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博