大约五年前,谷歌最多产的以ai为中心的研究实验室之一,deepmind,推出了 alphafold。这是一种可以准确预测人体内许多蛋白质结构的人工智能系统。
从那时起,deepmind 对系统进行了改进,于 2020 年发布了更新且功能更强大的 alphafold 版本--alphafold 2。
实验室的工作仍在继续。
10月31日,deepmind表示,最新版本 alphafold 已经出炉,不少人将其取名为“alphafold 3”。
据悉,最新的 alphafold 系统由deepmind及其衍生公司 isomorphic labs (专注于利用 ai 做药物发现)共同开发,不再局限于蛋白质折叠,还能够在配体、蛋白质、核酸以及翻译后修饰等方面生成高度精确的结构预测。且 isomorphic labs 公司已经将该系统用于药物发现工作。
不过最新版本的“ alphafold 3 ”还处于预览阶段,后续开发工作还在进行。
alphafold新版本有哪些升级?
第一大升级:预测蛋白质数据库(pdb)中大多数分子类型的结构,达原子精度。
根据deepmind的说法,alphafold可以预测蛋白质数据库(一个广泛使用的科学数据库)中几乎所有分子的结构。deepmind声称,该模型通常以“原子精度”生成这些预测。
alphafold 新版本不仅可以估计蛋白质的形状,还可以估计其他生物分子的形状。包括:小分子(配体)、蛋白质、核酸(dna和rna)、具有翻译后修饰(ptm)的分子。
第二大升级:预测相关配体的结构。
所谓配体,是指其他不同分子与蛋白质结合,并导致蛋白质功能方式发生变化。配体在细胞信号传导中起着重要作用,细胞信号传导是细胞相互影响行为的关键生物过程。
一种情况是,当配体附着或结合到蛋白质上时,组合结构称为“蛋白质-配体复合物”。研究人员历来使用一种称为“对接”的方法评估这种复合物的形状。但这一方法的局限性是,只有当有大量关于蛋白质-配体复合物的蛋白质成分的数据可用时,才能使用这种方法。
根据 deepmind 的说法,新版本的 alphafold 新版本可以比“对接”方法更准确地预测蛋白质-配体复合物的形状。与这些方法相比,alphafold 新版本需要的数据要少得多。
deepmind最新模型为蛋白质-配体结构预测设定了新的标准,在预测蛋白质-配体相互作用方面,新alphafold的性能比传统方法高出约20%,并且还可以预测尚未进行结构表征的全新蛋白质。
因此,alphafold 新版本可能会使科学家更容易研究新发现的蛋白质-配体复合物,而这些复合物的信息很少,而且可以帮助科学家识别和设计潜在的药物新分子。
isomorphic labs 最新公布了3个案例实验:抗癌分子的结合(porcn)、关键癌症靶标的共价配体结合(kras),脂质激酶变构抑制剂(pi5p4kγ)的结构预测。结果显示,该模型预测的结构与案例实验中测定的结构非常接近。
这一举动引起相关学者和药企的关注。有人在国内外社交平台表示:“设计新的分子比开发工具更重要,开发类似工具的人可能要改行,毕竟设计新的高价值的分子才可能是更好的生财之道。”
不过,也有人希望新版本能力再做进一步提升:很多时候,最新的 alphafold 的相对准确率(rmsd误差<2a)也只有50-60%,这对于药物设计来说往往会有很多问题。
更进一步说,蛋白质和小分子复合物的结构预测,应该是结合了ai和cadd两种方法,即分别基于数据库和物理原理,
第三大升级:预测核酸、以及翻译后修饰结构。
核酸是关键遗传信息的携带者,并破译翻译后修饰--即蛋白质诞生后发生的化学变化。
例如,在 caslambda 与 crrna 以及 dna 结合的结构中,caslambda 共享 crispr-cas9 系统的基因编辑能力,通常被称为“基因剪刀”,研究人员可以利用它来改变动植物和微生物的dna,而 caslambda 的较小尺寸可能使其在基因编辑中更加有效。
据一位从事药物设计的公司创始人评价:做核酸药物的人有福了,至少有个结果。不过结果是否准确,还需找个有经验的cadd(计算机辅助药物设计)研究员来评估。
此外,也有人指出,“我更关心 alphafold 3 是否可以用于预测病毒的蛋白质结构。afdb(数据库)中有很多预测结构,几乎涵盖了所有物种,但没有病毒。而且新版本对rna结构预测还不太好。”
总体而言,至于 alphafold 3 具体性能表现,deepmind 和 isomorphic labs 研究人员透露:
•考虑到比较系统使用已知的蛋白质结构作为基础,alphafold 3 在配体对接的准确性方面,优于开源分子建模模拟软件 autodock vina 等传统系统;
•与alphafold 2.3相比,alphafold 3 在预测蛋白质-蛋白质结构方面,抗体结合结构显著增强;
•此在蛋白质-核酸相互作用方面,alphafold 3 优于其他竞争方法,如rosetta2foldna等;
•在 rna 结构预测方面,alphafold 3 优于自动化技术,但略低于顶级casp 15 参赛者,后者涉及专家手动干预。
但饶有意味的是,针对最新版本,deepmind的博客文章并没有介绍方法,也没有对比薛定谔的方法。这可能是竞争关系的原因。
无论如何,从表面上看,alphafold 3 的功能有了大幅度的提升,如果真如deepmind所说,那么新版模型扩展的功能和性能提升可以加速生物医学突破,为疾病通路、基因组学、生物可再生材料、植物免疫、潜在治疗靶点、药物设计机制提供各种全新的可能性。
“alphafold 3 ”能否继续开源?
尽管 alphafold 最新版本推出不到两天,但已经有不少人已经开始期盼望继续开源,“因为学术界对蛋白质的研究已经空前高涨。”
一个典型例子是:
尽管 openai 的 chatgpt 在 2022 年底亮相时就席卷全球,但 2022 年被引用次数最多的论文并非关于生成人工智能(aigc),甚至不是来自大型科技公司,而是欧洲分子生物学实验室(embl-ebi)和 deepmind 出版的“alphafold 蛋白质结构数据库”,被引次数为 1331 次。
更有趣的是,引用量第二同样属于“蛋白质折叠模型”--colabfold。该系统由马克斯·普朗克多学科科学研究所(mpg)打造,引用次数为 1138 次。
从一定程度上说,尽管企业界将2022年描述为“生成人工智能年”,但学术界则认为:2022年绝对是“蛋白质折叠预测年”。
“目前 alphafold 拥有3项以上的专利,这不该是理所当然的,也不该是常态。不过af历代版本确实是目前生物领域最先进的工具,没有之一。”
更有人指出,“闭源不是最好的米乐m6平台的解决方案,为什么大多数国家都倾向于使用alphafold ?我有点怀疑大多数国家是否有人才和预算,来制造像alphafold 和蛋白质数据库这样的东西。”
据悉,deepmind在 alphafold 3发布当天披露,已累计超过140万用户(来自190多个国家)访问了alphafold蛋白质结构数据库。
不过未来“alphafold 3” 能否真正推动药物开发,还有待时间去验证。
具体细节可查阅原始博客:https://storage.googleapis.com/deepmind-media/deepmind.com/blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf
雷峰网(公众号:雷峰网)雷峰网