三十定律 首个千亿医药对话大模型来了 要打破医药研发 (31定律)

三十定律 首个千亿医药对话大模型来了 要打破医药研发 (31定律)

10 年时间,投入超 10 亿美金,但成功率只有 10% ——这是医药研发领域的“三十定律”。从某种程度来说,它像是医药行业的一个“魔咒”。

一个药物在正式上市之前,需要经过立项调研、早期药物发现、早期临床前研究、临床试验药物重定位等各个流程。对于药企而言,整个过程存在三大痛点:第一,信息繁杂,对专家依赖度极高;第二,探索空间有限,湿实验(*注)迭代慢;第三,投入成本高,失败风险大。

为了打破这个“魔咒”,近日水木分子发布了 新一代对话式药物研发助手 ChatDD(DrugDesign)和全球首个千亿参数多模态生物医药对话 大模型 ChatDD-FM100B 。其中,ChatDD能够在立项、临床前研究、临床试验各环节提供服务,预计将于 10 月中下旬邀请基础版本内测;ChatDD-FM100B 在 C-Eval 评测中达到全部医学 4 项专业第一,是唯一在该 4 项评测中平均分超过 90 分的模型。

从人工炼药到人机交互,医药研发经历四个阶段

回顾研发模式的发展历程,水木分子首次定义了医药研发的四个阶段:

第一阶段称为 TMDD (TraditionalManualDrugDesign),从远古时代一直持续到 19 世纪末,主要以手工合成、提取和筛选为主,基于大量试验、错误和经验主义,缺点是低通量、缺乏系统性、耗时长且成本高;

第二阶段称为 CADD (Computer-AidedDrugDesign),从 20 世纪中叶到 21 世纪初,计算机的出现开始辅助加速药物发现和设计,底层有物理化学规则做支持,在一定程度上实现了高通量,但是计算机只具有工具属性,因此只能解决单个问题,在研究过程中,仍然在很大程度上依赖研究人员经验;

第三阶段称为 AIDD (AIDrugDesign),从 21 世纪初至今,人工智能技术的成熟发展和应用,开始改变药物研发,研究人员可以从训练数据中挖掘药物发现和设计,优点是能够满足超高通量,实现流程化,但是缺乏模型与专家交互,依赖大规模高质量标注数据,面临信息与知识分离,工具服务分散,处理模态单一等挑战;

第四阶段称为 ChatDD (ChatDrugDesign),即基于当下的大模型能力,对多模态数据进行融合理解,与专家自然交互人机协作,重新定义药物研发模式。

在整个过程中,每个阶段的技术革新都带来了不同程度的效率提升和科学发展,为药物研发带来了新的机遇和挑战。“但是,目前市场上至少还有超过1/3的药还是通过 TMDD 研发设计的。”清华智能产业研究院(AIR)首席研究员、水木分子首席科学家聂再清教授表示,这正是如今医药研发周期长、投入大、风险高很重要的原因。

虽然计算机、人工智能技术能够起到一定的研发辅助作用,但是仍然停留在工具阶段,研发过程很难摆脱对专家的知识依赖。“并且专家的知识储备也是有限的,无法掌握所有的文章、专利、数据。我们认为,把专家知识与大模型知识联结,二者进行协作,这才是药物研发现在和未来应该有的模式。”聂再清教授强调。

除此之外,利用此前的技术辅助医药研发还面临两个挑战:一方面,海量的实时数据散落在各处;另一方面,生物医药涉及大量细分领域,每个领域需要配备对应工具,这些工具的使用门槛和成本也相对较高。“这也是我们发布 ChatDD 的原因,希望通过一个自然语言的交互界面,能够把专家从繁琐的数据处理和工具使用工作当中解放出来,把更多的精力放在更加开创性的、更有价值的工作上。”

搞定立项、临床前研究、临床试验难题,ChatDD 的三个场景应用

水木分子在此次发布会上展示了ChatDD 的在医药研发环节的三个具体应用场景,包括 ChatDD-BI立项场景、ChatDD-Discovery 研发探索场景和 ChatDD-Trail临床试验场景应用。

和仿制药生产制造不同,在药物研发过程中,立项环节极为重要,甚至一个错误的决定都可能导致巨大的经济损失。

在传统模式下,这一工作存在三个主要痛点: 第一,信息繁杂 ,涉及对大量数据的搜集、整理和分析,比如病人需求、疾病机制、医药行业现状、专利和文献检索等等,并且这些数据散落各处,收集难度大、耗费时间长,一份高质量的立项报告的输出需要专家投入大量精力。 第二,这一工作是非标准化的 ,对专家依赖极高,还存在信息不全面的问题,可能对项目的决策和发展产生负面影响。 第三,立项涉及企业商业秘密难以外包 ,这也增加了信息搜集的难度。

针对这一问题,ChatDD-BI 的角色是作为立项助手,通过与专家的数轮对话辅助立项调研,从而提升立项的效率和质量。

针对临床前研究场景,传统的做法是做湿实验,然后根据结果不断迭代。但是随着时间的推移,找到针对已知靶点的药物越来越难。因此,科学家们需要更大的探索空间来寻找新的靶点和治疗方案。对此,水木分子认为,大模型的幻觉在科学研究探索性中可能会带来“意外”的灵感。

以针对渐冻症治疗方案的探索场景为例,研发人员可以通过对话获得“渐冻症”疾病画像,包含疾病的描述、已有治疗方案等等,如下图:

同时,ChatDD 还会通过查询外部数据库,如 ClinicalTrails,给出渐冻症在研药物进展。以“利司扑兰”为例,研发人员可以利用 ChatDD 进一步探究其作用靶点,ChatDD 找到利司扑兰的作用靶点“SMN2”,通过建立疾病、靶点、药物之间的潜在链条关系,发现并建议“SMN2 是渐冻症的潜在靶点,可进行下一步探究探索”。根据已发表的多项研究成果,证明了 ChatDD 推断的合理性。

除了“灵感激发”之外,ChatDD-Discovery 同样可以提高研究人员的研发效率。在医药研发过程中,研究人员需要查询大量文献和检索专利等,这需要高频使用各种工具,学习成本高且难以与专家知识互动融合。而 ChatDD-Discovery 采用自然语言交互方式,将专家知识模型参数化,只需简单回答问题,就能使用虚拟筛选功能,使研究人员更高效地完成任务。

值得一提的是,ChatDD-Discovery研发助手可以处理生物医药多模态数据,如分子、蛋白质、基因序列以及多样的生物医药下游任务,如 DDI(药物-药物相互作用计算)、亲和力计算、药物敏感性预测、单细胞类型注释等。例如,输入分子式 ChatDD-Discovery 就可以生成该分子的完整描述信息,并且支持用户针对该分子进行进一步提问。

在药物研发的全流程中,临床试验是耗资最多、风险最大的那一环,因此,想要打破“三十定律”,提高临床试验成功率是重中之重。换个角度来看,由于成本巨大,所以,在这个环节只要有一点点的提升,就能带来可观的经济效益。

对此,水木分子 ChatDD 目前主要关注四个小场景:药物生物标记物发现、临床试验入组设计、临床试验报告撰写、药物重定位和适应症扩展。

比如,ChatDD-Trial 可以辅助临床试验研究人员找到最适合入组的患者人群;比如,通过发现药物敏感的生物标志物,更好地理解疾病亚型,实现精准的患者分类,确保患者与试验药物更匹配,减少不必要的变量干扰,提高临床试验成功率;再比如,作为临床试验设计助手,帮助研究团队优化试验设计,通过分析大量的相关数据,提供有关患者选择、临床试验阶段和标准化流程的建议,确保试验的科学性和可行性,减少不必要的误差和风险。

据聂再清教授介绍,目前 ChatDD 提供了三类服务方式:一是 订阅服务 ,支持企业账户;二是 API 服务 ,支持高速推理服务,提供开发者培训;三是 私有化部署 ,支持本地数据微调,定制场景方案。

三级淬炼出千亿级生物医药行业大模型

ChatDD 的底层,基于的是水木分子千亿参数多模态生物医药对话大模型 ChatDD-FM。

上图是 ChatDD-FM 多模态生物医药大模型的架构图:首先,对生物医药垂直领域的知识图谱、分子、蛋白质、单细胞测序、文本等多模态进行编码;然后,将各种不同模态对齐到统一的特征空间,进行模态融合、专业领域指令微调;最后,在产品端支撑 ChatDD-BI、ChatDD-Discovery 和 ChatDD-Trail三大应用。

水木分子首席技术官、联合创始人乔木博士强调,ChatDD-FM 是一个灵活、可扩展的架构,在当下版本基础上,还可以持续增加其它不同模态。而对于用户而言,可以通过自然语言对话方式与大模型进行交互。其背后,是 ChatDD-FM 对数千篇中英文生物医药文献、千万级通用场景对话、数十万个工具调用指令集等高质量数据的预训练,以及指令微调和智能工具调用。

水木分子由 AIR 孵化,在今年 6 月份成立,主要专注于生物医药垂直行业大模型的研发与应用。而早在今年 4 月,聂再清教授团队就已经 开源了生物医药版 GPTBioMedGPT1.6B ,从研究层面验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架内,可使模型具备“融会贯通”的能力,在分子性质预测、药物-靶点亲和力预测、性质预测、药物敏感性预测、分子-文本跨模态检索、分子-文本跨模态信息生成等多项任务上优于单一专用模型,从研究层面验证了技术可行性。

8 月,水木分子又开源了全球首个可商用的 百亿级参数规模多模态生物医药大模型 BioMedGPT-10B 。其中,首次提出了分子 QA 和蛋白质 QA 任务,给定特定分子/蛋白质,可以用自然语言回答相关功能、属性等问题,有效评估模型在自然语言和生物编码语言之间的翻译能力。

据聂再清教授介绍,虽然 BioMedGPT 已经实现商用,但由于是科研项目,所以使用的仍然是英文界面,中文对话能力较弱,因此在国内市场实现商用普及有限。这便是水木分子成立背后的原因之一。

“接下来,BioMedGPT仍然会继续往前推进,作为科研品牌继续开源。而此次 ChatDD 和 ChatDD-FM 的孵化,则是大模型都科研迈向产业化,是产学研结合的关键一步。”聂再清教授强调,“我们认为大模型未来必将成为AI时代的操作系统,就像我们 PC 时代的 Windows,移动互联时代的 Android、iOS。而现在我们正在做的生物医药大模型,未来在整个 AIforscience 领域都有可能用上。对此,我们充满了期待。”

而现下,ChatDD 和 ChatDD-FM 的发布,已然重新定义了医药研发模式,不仅可以提高研究人员的工作效率,还可以为研发新药提供更多的可能性。未来,随着技术的持续迭代革新,医药研发的效率和成功率将会得到显著提高,打破“三十定律”的“魔咒”指日可待。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。