DeepMind再迎挑战者,ESM作者带队6个月逾越AlphaFold 3,代码权重全开源
新智元报导
修正:乔杨
【新智元导读】一家刚建立6个月的草创公司Chai Discovery最近发布了能对打乃至逾越AlphaFold 3的模型Chai-1,并且放出了模型权重和推理代码。不开源的DeepMind这回还能坐得住吗?
间隔AlphaFold 3露脸现已过去了4个月,但由于未发布代码且定量拜访次数,咱们对它的原理、机制和实践功效仍旧知之甚少。
前两天也只是完成了第一阶段,现在只能猜测蛋白质,还无法用于DNA、RNA等其他生命分子。
但是,AF3的各路「踢馆者」正接连不断。
最近,一家名为Chai Discovery的草创公司发布了他们的最新模型Chai-1,能够对蛋白质、小分子、DNA、RNA、共价润饰等进行一致猜测。
原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1
依据基准测验成果,Chai-1在药物发现的相关使命中到达了SOTA水平,乃至超过了AlphaFold 3,以及Meta FAIR的前ESMFold团队重整旗鼓搞出的最新模型ESM3。
不只功能好,Chai-1团队还撰写了一篇16页的技能陈述,并开源了模型权重和推理代码,但仅限非商业用途。
论文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf
库房地址:https://github.com/chaidiscovery/chai-lab
开发者们能够挑选下载代码、在本地运转或修正模型,也能够经过服务器在线调用。
https://lab.chaidiscovery.com/
这个open程度,让人不由回想起从前既有代码又有论文的AlphaFold 2。
模型发布后,HuggingFace的CEO还直接发出了在线约请:不如在HF库房上也保管一份权重。
IBM大佬Alex Kaplan乃至把Chai-1的发布称为「药物发现的ChatGPT时间」。
他表明,当下肯定是分子生物学的黄金时代,在可预见的未来,只需几行代码就能治好一切疾病,而Chai-1或许便是AlphaFold之后咱们朝着这个方针迈出的重要一步。
蛋白质范畴的「原生多模态」
技能陈述中说到,模型架构和练习战略大体依照了AlphaFold 3的论文,但有一个要害差异:
他们运用截止到2021-01-12的一切数据,仅练习了单个模型,而非针对不同的评价别离练习,此外还添加了一些新的功用。
与大多数需求MSA(多重序列比对)的结构猜测东西不同,Chai-1能够在没有MSA的情况下以单序列形式运转,一起到达附近的功能。
除了运用序列信息,Chai-1也是一个「原生多模态模型」。
除了直接从序列信息进行建模的才能外,它还能够经过prompt承受新数据,例如试验得出的结合袋(pocket)、接触点(contact)和对接(docking)的束缚条件。
这些束缚条件能捕捉到复合物中不同物质在不同粒度上的相互效果信息,和结构模板供给链内间隔的效果相似,但更重视供给链间间隔的信息。
比照试验中发现,供给束缚条件后,乃至能够为模型功能带来两位数的提高(图4A);但为了避免模型过于依靠束缚条件导致过拟合,练习时对这些特征采用了dropout。
比如表位的束缚——即便只要少数的接触点或结合袋残基的信息,也能使抗体-抗原结构猜测的精确率翻倍,让AI在抗体工程中的人物变得愈加有用。
依据DockQ上的可承受猜测率基准,Chai-1能比依据MSA的AlphaFold-Multimer模型(67.7%) 更精确地折叠多聚体 (69.8%)。
这个成果,让Chai-1成为第一个仅运用单序列信息、无需MSA查找,就能以AlphaFold-Multimer水平猜测多聚体结构的模型。
在PoseBusters基准上,仅给出蛋白质序列和配体化学成分的信息时,Chai-1对配体猜测成果的RMSD(均方根误差)成功率为77%,超过了AF3的76%。
建立半年,拿出尖端模型
发布Chai-1模型的Chai Discovery建立于本年3月,是一家AI生物草创公司,就在几天前的9月9日完成了3000万美元的种子轮融资。
这轮融资由Thrive Capital领投,OpenAI和Dimension Capital也参加其间,买卖完成后,Chai Discovery的估值已升至1.5亿美元。
现在Chai的职工数量还不到10人,但招引了不少来自OpenAI、谷歌、Meta FAIR等顶尖组织的人才参加,大部分成员也曾是头部药物公司的AI负责人。
Chai Discovery团队的旧金山办事处
联合创始人兼CEO Joshua Meier本科和硕士都结业于哈佛大学计算机科学专业,此外还拿到了化学专业的学士学位。
他高中时就在美国计算机奥赛中拿到了金牌水平的名次,并进入生物技能范畴的创业,在OpenAI、谷歌、Meta FAIR、布罗德研讨所(隶属于MIT和哈佛)等组织都曾有丰厚的研讨和作业经历。
2021年,在FAIR作业的Meier和团队宣布了一篇重要论文,创建了第一个Transformer架构的蛋白质言语模型ESM-1b,现在引用量现已到达1800+。
论文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118
作者列表中,还有不少了解的姓名,包含其时还在哈佛的Pika创始人郭文景(Demi Guo),以及FAIR从前的ESM团队成员Alexander Rives、Zeming Lin、Tom Sercu和Jason Liu。
依据LinkedIn信息,ESM团队闭幕后,Alexander Rives、Zeming Lin和Tom Sercu现已去了草创公司EvolutionaryScale,他们前段时间也刚刚发布新模型ESM3。
创建Chai Discovery前,Meier还曾担任生物技能公司Absci的首席人工智能官。
在种子轮中挑选跟投的Dimension Capital出资人Zavain Dar最近宣布了一篇文章,对出资主意进行了论述,并高度赞扬了Meier和他的团队。
Zavain Dar表明,从2019年Meier先后入职Meta和OpenAI时,他们就十分重视Meier的作业。
短短几个月内,Chai-1就能够与业界财力雄厚、历史悠久的企业所开发的产品等量齐观,这让他们看到了,一个「言简意赅」的团队能够在极短时间内做出多少成果。
在Zavain Dar的文章和Chai Discovery的博客中,都谈到了当时阶段敞开技能成果的重要性。
尽管Chai-1现已取得了十分杰出的成果,但咱们才刚刚站在起跑线上。
要将生物学「从科学转变为工程」,还需求构建更老练、更着重的根底模型,用于猜测和重编程生化分子间的相互效果。
Chai-1的团队表明,他们深信长时间的取胜战略需求透明度和敞开试验,当今的生物技能从业者就能够免费且轻松地使用这些前沿技能,将其转化为药物发现范畴的有用价值。
参考资料:
https://www.chaidiscovery.com/blog/introducing-chai-1
https://www.bloomberg.com/news/articles/2024-09-09/openai-thrive-capital-back-six-month-old-ai-drug-discovery-startup
发表评论