编译 | 曾全晨审稿 | 王建民今天为大家介绍的是来自Ali Madani团队的一篇论文。基于注意力机制的模型在蛋白质序列的分类和生成任务中展现出了惊人的成功,这些任务对于人工智能驱动的蛋白质设计至关重要。然而,我们对于大规模模型和数据在有效蛋白质模型开发中所扮演角色的理解仍然不足。作者引入了一套名为ProGen2的蛋白质语言模型,模型的规模扩大到了64亿参数,并且在从基因组、宏基因组和免疫库数据库中提取的超过十亿蛋白质的不同序列数据集上训练。ProGen2模型在捕捉观察到的进化序列分布、生成新的可行序列,以及在不需要额外微调的情况下预测蛋白质适应性方面展示了最先进的性能。蛋白质是生命的“打工人”, 它们在维持我们的健康和环境方面扮演着非常重要和多功能的角色。通过技术手段改造蛋白质,可以让它们在制药、
………………………………