大市中国

大市中国 > 热点 >

百图生科发布xTrimo Multimer模型开源版

时间:2022-08-23 16:04:18

 

来源:新华财经

近日,百图生科发布并开源同时支持蛋白质单体(Monomer)与复合物(Multimer)结构预测的xTrimo Multimer模型开源版。xTrimo Multimer能够更好地理解靶点-蛋白以及抗原-抗体之间的相互作用,是用AI设计全新药物的关键技术。此次的开源版模型中,百图生科携手潞晨科技,通过同时引入大模型加速的多种技术手段,包括数据并行,模型并行,流水线并行,动态轴并行等,显著降低了蛋白质结构预测模型推理的时间和经济成本,提高了蛋白质结构预测模型领域的设计和部署效率,也使得训练更大的模型成为可能。

作为中国生物计算平台公司,百图生科致力于构建领先的生物计算大模型,并以此驱动生物计算引擎的各种任务算法开发,完成突破创新的靶点发现和药物设计。百图生科xTrimo大模型体系(Cross-model Transformer Representation of Interactome and Multi-Omics)是生物跨模态预训练模型体系,能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统的多层次生物问题,为开发免疫调控蛋白质药物提供强大的计算生物学能力。

此次开源的xTrimo Multimer开源版,是百图生科大模型体系的核心模块之一,能够同时支持单体和复合体蛋白质的结构预测。相比Alphafold Multimer等行业已有模型,开源版xTrimo Multimer针对长序列推理的计算复杂度底层优化,通过CUDA优化和Kernel Fusion,实现了在单卡推理上的明显性能提升。相较于AlphaFold2和OpenFold,xTrimo Multimer开源版模型在同等精度下,单卡推理性能可以提升1-2倍以上。

xTrimo Multimer开源版模型还支持超长序列的分布式推理。通过采用模型并行、流水线并行、动态轴并行(Dynamic Axial Parallelism)等技术,xTrimo Multimer可以高效地将计算和部分显存分配到不同的设备上,从而解决超长序列面临的计算和内存挑战。在2K到3K的序列长度下,xTrimo Multimer开源版使用多卡进行推理,相对于OpenFold和AlphaFold 2推理速度最高提升8.47倍和11.15倍,对比Uni-Fold2.0速度最高提升4.45倍,从而在面向药物设计的工业场景中,大大提高了模型的实际可用性。

xTrimo Multimer开源版还可以支持长达4K的序列推理,在这个长度下OpenFold和AlphaFold 2受限于显存无法完成推理,而xTrimo Multimer开源版可以在20分钟左右完成4K序列的推理,从而为药物设计解锁了新的可能空间。

xTrimo Multimer开源版模型的效率提升,得益于百图生科大模型体系的构建,也基于与潞晨科技Colossal-AI团队在计算效率提升上的深度合作。这也是面向大模型时代的通用深度学习系统 Colossal-AI 在生命科学领域应用落地的重要进展,未来双方还将会继续在生物计算大模型上加强合作,共同助力深度学习在创新药物研发上的应用和落地。

百图生科首席AI科学家宋乐表示:“从对单个蛋白质结构的模拟,到对不同蛋白质之间的相互作用的识别,再到对蛋白质复合物的绘制,百图生科致力于解码、建模复杂人体免疫系统,开发突破创新药物,编程免疫系统,治愈多种免疫相关疾病。此次xTrimo Multimer开源版模型的发布,是我们携手潞晨科技Colossal-AI 团队,借助其在高性能计算上的优势以及百图生科生物计算领域前沿的技术积淀,朝着百图生科xTrimo多模态生物计算大模型体系迈出的又一步。”

百图生科(BioMap)是中国生物计算引擎驱动的创新药物研发平台,由百度创始人李彦宏于2020年创立。公司致力于结合前沿AI和生物技术,构建高通量干湿闭环的生物计算引擎,建模蛋白质、免疫细胞、免疫系统的复杂规律,从而开发全新的蛋白质药物,重编程免疫系统、治疗数十种免疫相关疾病。目前,公司已在北京、苏州、硅谷建立了三个研发中心和上万平米的高通量实验室,组建了由多位院士和产业专家领衔的数百人专业团队,开发了数千亿关系的多组学免疫图谱、上千亿参数的多模态生物计算大模型、年产上亿组数据的智能化蛋白质与免疫系统实验模拟器等一系列重大科学装置。公司目前围绕多种肿瘤免疫和自身免疫疾病建立了30余个自主药物研发项目,并通过卓越开发者计划与国内外著名机构建立了数十个联合开发项目。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。