看啥推荐读物
专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
BioArt  ·  专家点评Science | ...·  昨天  
BioArt  ·  Nat Commun | ...·  4 天前  
BioArt  ·  Nat Immunol | ...·  4 天前  
BioArt  ·  Cell | ...·  5 天前  
今天看啥  ›  专栏  ›  生信宝典

4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

生信宝典  · 公众号  · 生物  · 2024-04-22 21:00
将 ScienceAI 设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | ScienceAI蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。西湖大学的研究人员利用Foldseek来处理蛋白质结构,将其编码成一维的离散token,并与传统的氨基酸进行结合,形成了结构感知词表(Structure-aware Vocabulary),以此将结构信息嵌入到模型输入中,增强模型的表征能力。在预训练上,论文使用了目前最多的蛋白质结构(identity过滤后4000万),在64张A100上训练了3个月,最终开源了具备650M参数量的模型SaProt(同时包括了35M的版本)。实验结果表明SaProt各种蛋白质任务上都要好于之前的序列和结构 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照