今天看啥  ›  专栏  ›  络绎科学

几秒完成搜索,灵敏度提升3倍!国内团队提出基于蛋白质语言模型的远同源蛋白质搜索算法

络绎科学  · 公众号  ·  · 2024-04-10 15:51
自从大语言模型问世以来,各种新的应用层出不穷。英语里有句俗语说,当你握着个锤子的时候,看什么都像是钉子。而研究人员现在手握强大的语言模型,看什么都像是“语言”,比如化学式、DNA 序列等等。现在,蛋白质序列也加入了“语言”的行列。最近,来自复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法。PLMSearch 从预先训练的蛋白质语言模型中获取深层蛋白质表示,并基于大量真实的结构相似度训练相似度预测模型。这使得 PLMSearch 能够捕获隐藏在序列背后的远同源信息。它能够在短短几秒内迅速检索数百万个查询目标蛋白质对。与传统方法相比,其灵敏度更是提升了三倍之多,足以与当今最尖端的结构搜索技术相抗衡。值得一提的是,与传统的序列搜 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照