专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
今天看啥  ›  专栏  ›  数据派THU

覆盖2亿分子质谱图,捷克科学院发布DreaMS模型,构建全球最大规模质谱数据集GeMS

数据派THU  · 公众号  · 大数据  · 2025-06-13 17:00
    

文章预览

来源:HyperAI超神经 本文 约4000字 ,建议阅读 5 分钟 来自捷克科学院有机化学与生物化学研究所的研究团队,借鉴了 GPT 系列在语言领域取得的突破性进展,致力于为质谱图打造专属的翻译器。 作者:田小幺 编辑:李宝珠 转载请联系本公众号获得授权,并标明来源 捷克科学院有机化学与生物化学研究所研究团队,借鉴了 GPT 系列在语言领域取得的突破性进展,从全球天然产物社交分子网络(GNPS)中挖掘出 7 亿条 MS/MS 谱图,成功构建起史上规模最大的质谱数据集 GeMS,并训练出拥有 1.16 亿参数的 Transformer 模型 DreaMS。 据统计,人类目前所探索的天然小分子化学空间尚不足其总量的 10%,而非靶向代谢组学实验中,超过 90% 的质谱图因缺乏可靠的注释而沦为「数据废墟」。 在这场分子解密的关键战役中,核心挑战在于破解串联质谱(MS/MS)的复杂语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览