成天软件海量科研管理资讯平台提供:
·AI通过“完形填空”的方式学习基因组中约600万个常见SNP位点之间复杂的相互关联规律,理解遗传的“语法”。
人类基因组里包含着超过30亿个碱基对,如何从中高效、系统地解读出与健康、疾病、体质特征相关的奥秘,一直是现代生物学面临的巨大挑战。人工智能基础模型正成为突破这一瓶颈的关键力量。
1月13日,在上海“模速空间”,基因底座大模型SNPbag正式发布,该模型旨在解决当前基因组学研究中面临的计算效率低、数据碎片化以及预测能力不足等难题,试图通过AI技术“读懂”DNA与人类生命特征之间复杂的关联。模型作者包括上海飞瀑智能科技有限公司、德国莱比锡大学、华大基因研究院、中国科学院等多家单位的研究人员。
人类的DNA序列有99.9%是完全相同的,剩下0.1%的差异造就了我们每个人独一无二的体质、外貌和疾病易感性。这些差异大多以单个碱基变化的形式存在,即单核苷酸多态性(SNP)。SNPbag正是专为分析这些关键差异位点而设计的。
该模型的作者们在相关论文中提到,基于Transformer架构的大语言模型已经改变了生物医学研究。在蛋白质组学中,AlphaFold 能够准确预测蛋白质结构并加速药物发现。在单细胞转录组学中,Geneformer、scGPT 和 scBERT 等模型支持细胞类型注释以及扰动响应预测。在基因组学中,包括 Nucleotide Transformer和 EVO在内的模型能够处理跨多物种的完整基因组序列,用于注释基因组元素。
“相比之下,对于单一物种的基因组数据,例如人类基因组,仍然缺乏能够应对个体之间巨大基因组变异的人工智能基础模型。”该论文写道。
“我们训练模型的数据,就是这0.1%的人与人之间的基因差别,那些99.9%重复的部分被拿掉了。”该模型的作者之一徐国华告诉澎湃科技,“这使得我们能够节省海量的算力,这也是它与其他一些基因组模型的核心区别之一。”
徐国华曾在德国马克思·普朗克演化人类学研究所做研究,师从2022年诺奖得主、生物学家斯万特·佩博(Svante P??bo)。他告诉记者,目前仅用SNP数据进行训练的基因大语言模型只有SNPbag,其研发难度主要在于开发者需要对遗传学和大模型都非常了解。
该模型的另一位作者、飞瀑科技创始合伙人兼首席科学家唐鲲在发布会上表示,团队成员的背景多样,包括肿瘤医学、计算生物学等,“既要懂生物又要懂计算,只有这样的团队能把它做出来。”
与当前主流的语言大模型(如ChatGPT)类似,SNPbag也采用了强大的Transformer架构。研究团队用100万个模拟基因组数据对一个拥有8.4亿参数的模型进行预训练,让AI通过“完形填空”的方式学习基因组中约600万个常见SNP位点之间复杂的相互关联规律,理解遗传的“语法”。通过这种学习,SNPbag构建起了一个能贯通多种遗传分析任务的底层能力。
发布会上,唐鲲列举了该模型的多种用处。过去,要分析一个人的祖源、推断其与其他人的亲缘关系、或补全基因测序中的缺失数据,研究者需要使用不同的统计软件,过程耗时且相互独立。SNPbag则将这些任务整合到一个统一的平台之上,模型只需经过少量微调,就能胜任多种下游任务。
发布会演示显示,该模型能精准区分出遗传背景高度相似的人群,也能可靠地推断出远至12代的亲缘关系,其性能在部分任务上已达到或超过传统方法的水平,而计算速度则实现了数十倍乃至上百倍的提升。
SNPbag还展示了一项极具潜力的功能——高效的基因组压缩和加密。一个人的全基因组SNP原始数据包含数百万行记录,给表型预测带来巨大挑战。SNPBag模型能将这些海量信息压缩成38万个数字,还保留了95%以上的核心遗传信息。
经过压缩后的个人基因组信息。图片来自SNPbag论文
徐国华表示,这38万个数字能够极大降低后续的开发难度,SNPBag有望通过压缩的基因组训练出很多预测表型的能力。此外,一个人的基因组压缩,还能存储在一个仅有0.75MB大小的文件中。这意味着,未来个人的基因组“身份证”或许可以轻松地存储在U盘或手机中,在保障数据隐私和安全的前提下,极大地便利了大规模科研协作和临床应用。
“这个模型是一个起点。”唐鲲表示,其最终目标是建立从基因型到表型(即身高、相貌、疾病风险等个体特征)的精准预测能力。唐鲲团队之前曾开发通过DNA信息预测外貌的算法,在刑侦等领域大有用处。他告诉澎湃科技,采用新的底座模型后,有望提升面部还原算法的准确度和泛化能力。
(原标题 SNPbag基因大模型发布:亲缘关系判定效率较传统方法提高数十倍)
成天软件《人事管理系统 》采用多层软件架构,统一身份认证,数据呈现,能够基于校园网/互联网为高校、医院、研究所人事管理提供先进、实用的信息化管理平台。 已积累百家高校案例,详情电话咨询15851303988。 《高校科研管理系统 》涵盖高校科研管理工作的所有环节,能够适应理工农医类、人文社科类以及综合性高校的管理需求,协助高校建立符合自身特殊需要的人事管理规范,为高校建设数字校园奠定坚实的技术基础与管理基础。
本文转载自:科学网。文章为作者独立观点,不代表成天立场,转载请联系原作者。
点击量:7
湖南师范大学高校人力资源系统
湖南师范大学,作为湖南省内历史悠久、声誉卓著的高等学府,始终将人才培养与师资队伍建设视为学校发展的基石。近年来,学校积极响应国家教育现代化战略,全面升级人力资源管理体系,构建了一套先进、智能的高校人力资源系统,旨在优化教职工管理流程,提升服务质量,激发人才潜力,为学校教育事业的高质量发展提供坚实的人力资源保障。
保山学院高校人力资源系统
保山学院高校人力资源系统,作为学校人事管理的数字化转型引擎,是一个集教职工招聘、人事档案管理、薪酬福利处理、培训与发展、绩效评估、职业规划于一体的综合性平台。该系统旨在优化人力资源管理流程,提升管理效率,强化教职工队伍建设,为保山学院的教育与科研事业发展提供坚实的人力资源保障。
中国科学院之江实验室诚邀优秀青年学者加盟
中国科学院之江实验室诚邀优秀青年学者加盟
中国科学院山西煤炭化学研究所高层次人才招聘公告
中国科学院山西煤炭化学研究所 人事管理,人事管理系统,人事系统,高校人事,人力资源管理,人力资源管理系统,大学人事管理,人事绩效考核
西电杭州研究院高层次人才招聘公告
西电杭州研究院 人事管理系统 招聘公告