现代AI驱动的药物研发
从鲁迅 1919 年短篇小说中用死刑犯血液浸泡的馒头制成的“药物”到 2019 年现代人工智能设计的药物,这一过程代表了人类进步和科学进步的一次显著飞跃——仅跨越 100 年,约四代人。虽然乍一看药品和人工智能似乎毫无关系,但事实证明,人工智能特别适合制药和药物化学应用。本文将解释原因。
1、制药行业正在发生巨大变化
开发一种药物需要 26 亿美元,耗时 14 年,而且不能保证患者会对其产生良好反应!如果有一天药物可以由计算机按需设计并在移动实验室中制造,那会怎样?
2019 年,我在 ICLR 会议上遇到了人工智能制药初创公司 Insilico 的首席执行官 Alex Zhavoronkov。他预测,如果大型制药公司不拥抱人工智能,它们就会衰落。Insilico 的策略是与中国制药公司合作,而不是与欧洲、美国或日本的制药公司合作,理由是中国拥有灵活的环境、丰富的人工智能人才和雄厚的财力。世界创意中心似乎正在发生重大转变 [1]。
2019 年中期带来了像 AlphaFold [2] 或 GPT-2 [3] 一样重要的新闻。人工智能首次成功设计了一种进入小鼠试验的药物——并在实验动物中显示出有希望的效果。测试前的总开发时间仅为 46 天,考虑到这一过程通常需要长达一年的时间,这是一个了不起的成就。这是人工智能设计的产品首次在小鼠身上显示出疗效。虽然这还没有在人类身上实现,所以有必要克制一下兴奋,但它还需要多年的人体试验和功效评估。
2021 年,他们用人工智能发现的治疗特发性肺纤维化的药物进入临床前候选阶段。这一成就意义非凡,因为获得 FDA 批准极具挑战性,涉及多个阶段,通常需要十多年的时间和数十亿美元的资金。最近审批速度缓慢表明,如今发现新药有多么困难,凸显了突破的必要性。人工智能代表了一个有前途的方向,而 Insilico 凭借令人印象深刻的科学出版物,已成为一家开创性的初创公司。
2、人工智能驱动的药物发现
我将从人工智能的角度解释人工智能如何进行药物发现。由于我不是生物学家或化学家,我将以人工智能专家的方式处理这个问题:从数据表示开始。每当需要进行预测或生成工件时,人工智能就会寻找表示数据的方法。这就是人工智能看待世界的方式。
药物是一种与生物靶标结合的小分子。这些靶标通常是蛋白质,但也可以是其他物质,如 RNA。这种结合会改变靶标的功能,产生所需的治疗效果。根据这个定义,咖啡因是一种药物,因为它会改变你的精神状态并产生特定的影响。酒精也是如此。
蛋白质是由氨基酸链组成的大分子。每个元素都和药物分子一样小,但整个蛋白质形成一个大结构。
药物分子通常以图形表示,其中节点代表原子,边代表它们之间的键。蛋白质具有复杂的 3D 结构,这取决于它们在空间中的折叠方式,像丝带一样扭曲。当它们相互作用时,药物会与蛋白质结合产生治疗效果。
药物发现是寻找具有所需治疗效果的分子的过程。这个过程极其复杂,因为它需要了解化学、生物学、医学和许多其他领域,才能创造出一种副作用最小的有效治疗方法。要使分子被视为可行的药物,它必须满足某些标准。例如,它必须是水溶性的,并且能够在体内和血液中有效发挥作用。它还必须足够小并具有其他几个特定特征。
在传统过程中,从最初的想法到上市批准的药物需要大约 10 年或更长时间。成本通常超过 10 亿美元,并且必须使用许多实验室小鼠进行测试。这个过程很昂贵,因为研究人员必须筛选大约一百万个分子才能确定大约一千个潜在候选分子。从这一千个分子中,只有一个分子最终可能成为药物。
然后是人工智能支持的过程。虽然这些已经使用了一段时间,但它们在过去三年中得到了显着加速。这种方法与传统方法有很大不同。以下是 Insilico 提出的流程之一(截至 2019 年):
在这个过程中,他们提出在所有步骤中都使用人工智能。
在今天的讨论中,我们将主要关注中间部分:如何识别和创建能够达到预期效果的分子。
3、基本问题
在这个领域,研究人员试图回答三类问题:
首先,给定一个分子,我们需要回答这样的问题:它是否具有类似药物的特性?它是否有可以结合的目标?它如何影响该目标?它在体内有什么作用?它如何与食物和饮料相互作用?它是如何被吸收和排出的?回答这些问题有助于研究人员初步评估该分子是否值得进一步研究。
第二个问题更具挑战性,即:给定我们想要修改的目标,哪些分子可以影响该目标?这尤其困难,因为即使在研究人员确定了需要修改的疾病和特定生物目标之后,找到合适的分子也可能需要很多年的时间。
如果我们有可用分子的列表,我们可以对它们进行排序并选择最佳候选者。但是,在大多数情况下,此列表并不容易获得。因此,我们必须以化学式的形式提出分子,希望它们能在实验室中合成。
第三个问题是:给定一个化学式,有可能合成该分子吗?如果可以,如何合成?用人工智能术语来说,这个问题类似于规划:你从想要实现的目标开始,然后倒推。我们需要确定要采取哪些步骤,从最基本的分子开始,通过反应链来达到所需的分子。
4、如何为计算机表示药物
与当今的任何人工智能应用程序一样,该过程从数据表示开始 [4]。我们需要以计算机可以有效处理的格式呈现分子。
向量为计算机提供了一种方便的格式。将工件表示为向量也称为将其嵌入高维空间。向量特别有用,因为它们易于使用并支持多种类型的算法。它们可以被添加、减去、变换、乘以或用随机噪声修改。
长期以来,化学家一直为此使用一种称为“指纹”的巧妙格式。指纹的工作原理是计算分子图中的小特征模式,例如苯环或氢键。
最近,研究人员在分子图上使用卷积网络来学习新类型的指纹表示,而无需依赖预定义的化学规则。结果非常令人鼓舞,表明神经网络可以直接从数据中学习有用的分子表示。
有了向量后,许多可能性就会出现。你可以使用自动编码器、GAN 和许多其他方法。例如,我们可以通过 VAE(变分自动编码器)算法在低维空间中学习指纹的隐藏表示。这个隐藏空间可以更轻松地进行优化,并可以生成新的指纹 - 本质上是创建新的分子。我稍后会回到这个话题。
另一种常见的分子格式使用字符串,特别是 SMILES 格式。这种方法将图形转换为非常适合计算机处理的字符串。转换遵循特定的语法规则。
从 AI 的角度来看,这为各种字符串处理开辟了可能性。我们可以使用 CNN、RNN、注意力机制、Transformer、记忆网络或强化学习。
但是,字符串有几个限制。首先,它们不能总是一致地来回转换为图形。字符串比图形具有更多的自由度,当将分子表示为字符串时,关键的 3D 信息会丢失——这些信息对于计算许多分子特性至关重要。有时,图中靠得很近的两个原子在字符串表示中可能会相距很远。
因此,你可能会认为表示药物分子的最佳方法是直接使用图。但是,图对计算机处理提出了自己的挑战。图没有固定的大小或固定的顺序——你可以排列图形的元素,它仍然是同一个图。我们还缺乏生成图的良好模型。虽然我们有有效的自回归模型来生成顺序数据,例如 RNN 或 GPT,但生成图更为复杂,因为它们的拓扑结构没有固定的大小,并且没有直接的方法来解决排列不变性。
5、图记忆网络模型
RDMN(关系动态记忆网络)是我们在 2018 年开发的表示模型之一,灵感来自记忆网络。让我来解释一下它的工作原理:
该模型以灵活的方式处理图结构数据。它首先将药物分子图作为输入。然后将每个原子嵌入高维空间作为向量(本质上是该空间中的一个点)。这些嵌入向量共同形成工作记忆,
类似于我们的大脑在处理复杂任务(如解决难题或编程)时如何保持活跃信息。
原子通过它们的键相互通信,这个过程我们称之为“信息传递”。每次传输消息时,嵌入向量都会根据从相邻原子收到的信息进行更新。然后将更新的信息传递给相邻的原子。为了增强此过程,中央控制器通过收集来自所有原子的全局信息并在下一个消息传递步骤中将其广播回来,从而补充消息传递。这意味着每个原子最终都会从分子中的每个其他原子接收信息。最后,控制器收集所有这些信息以产生输出,这可能是一个预测,也可能是一些全新的东西。
6、蛋白质表示
蛋白质是氨基酸链,可以使用大约 20 个字符的词汇进行编码,从而创建 1D 序列。这些序列的长度范围从数百到数千个字符。
这种 1D 表示的挑战在于它与自然界中发现的实际 3D 结构完全不同。从 1D 转换为 3D 结构特别困难。截至 2019 年 11 月,还没有人开发出真正有效的模型来将 1D 序列转换为其 3D 折叠结构。虽然 DeepMind 的 AlphaFold 代表了当时最先进的方法,但它仍未达到所需的准确度 [5]。
1D 结构的优势在于它们与许多自然语言处理 (NLP) 技术兼容。我们可以应用 word2vec、ELMO、BERT 或 GPT 等方法来分析这些蛋白质序列。因此,使用 NLP 技术进行蛋白质编码的研究变得非常活跃。
7、药物-靶标相互作用
蛋白质和分子如何相互作用?这个问题属于药物-靶标结合或药物-靶标亲和力预测的领域。一种值得注意的方法,即 GraphTDA 方法,结合了图卷积网络来处理药物图和 CNN 来分析蛋白质序列。虽然概念上很简单,但这种直观的方法已被证明非常强大。
从机器学习的角度来看,我们可以将药物-靶标相互作用问题构建为一种问答形式,使用三重格式:<查询、上下文、答案>。答案可能表明相互作用是否存在、强度如何或结合位点位于何处。根据我们如何构建问题,药物可以扮演查询的角色(如在 GraphTDA 模型中,蛋白质充当上下文)或上下文的角色(如在 RDMN 模型中,蛋白质嵌入在查询中)。
8、药物再利用
一旦我们了解了目标,就会出现一个实际问题:现有药物是否可以重新用于这一新挑战?这种方法特别有吸引力,因为如前所述,开发新药非常昂贵且耗时,需要数十亿美元和许多年的时间 [6]。幸运的是,经验表明,许多为一个目的而开发的药物可以有效用于其他应用。
去年,我们使用前面描述的 RDMN 模型来应对这一挑战。 RDMN 结构允许我们使用目标(例如蛋白质或癌细胞)作为查询,同时将药物分子图视为上下文。这意味着我们可以用不同的目标查询相同的上下文(药物)。我们的研究表明,在同一模型上训练不同的目标比单独训练它们产生更好的结果。
这种方法揭示了两个重要的见解:首先,一种药物可以影响多个目标。其次,联合训练是一种多任务学习的形式——这是现代机器学习中一种有用的策略。
然而,RDMN 模型有一个局限性:它需要对每个目标进行单独的计算,这使得训练非常耗时,并且很难充分利用目标之间的相似性。为了解决这个问题,我们开发了一种改进的模型,称为 GAML(Graph Attention Multi-Label)。虽然我不会在这里讨论技术细节,但关键的创新是它允许我们以最小的计算成本扩大输出的数量。例如,我们成功地尝试同时分析五种类型的癌症,或一次处理 50 种蛋白质。通过同时预测多个靶标,我们通常能获得比单独预测每个靶标更好的结果,尤其是对于训练数据有限的靶标。该模型还允许我们整合有关靶标之间相互作用的信息。
8、药物相互作用
药物开发中的另一个重要考虑因素是不同药物之间可能存在不良相互作用。一位好医生通常会在开处方前询问您正在服用的其他药物,因为药物在体内可能会相互作用,有时会产生不良影响。因此,了解这一点至关重要
提前知道哪些药物可能会相互作用以及这些相互作用可能产生什么后果。
我们重新审视了 RDMN 模型以应对这一挑战。如前所述,RDMN 将图(代表一种药物)作为输入。同时处理多个图的一种简单方法是将它们视为更大图中的子图。但是,这种方法不能充分考虑每个子图的局部属性。为了解决这个问题,我们扩展了 RDMN 的内存以包含多个组件,每个组件处理一个图。
我们应用这种增强的 RDMN 来预测化学-化学相互作用,取得了有希望的结果,这要归功于该模型在结合上下文、环境和各种其他特征方面的灵活性。当针对标准数据集进行测试时,我们的方法优于以前建立的技术。
9、分子优化
现在我们来谈谈药物开发的最后方面:设计新的药物结构和为实验室开发合成工艺。这些代表了该过程中最重要和最具挑战性的方面,这些领域的研究仍然非常活跃。
当你拥有一种有望成为潜在药物的结构时,你需要对其进行优化,以最好地实现预期目标。一种方法将其视为离散空间搜索问题:从已知结构开始,依次添加或删除组件以优化目标。另一种方法将其视为机器翻译问题,其中初始结构作为源语言,优化结构作为目标语言。
10、生成式分子设计
但是,如果你没有初始药物结构来开始优化怎么办?这就是生成设计的用武之地——一个极具挑战性但又令人着迷的问题。
从人工智能的角度来看,药物设计可以看作是结构化预测、机器翻译或条件生成 [7]。主要挑战在于药物不是序列而是图。生成具有所需属性的图仍然是机器学习中一个开放且重大的挑战。
这就提出了一个重要的问题:我们应该使用哪种表示?如果我们使用序列,技术已经相当成熟。但使用图则带来了更大的挑战。
最活跃的研究领域之一是使用 VAE(变分自动编码器)来模拟分子分布,从而实现 AI 探索整个化学空间的梦想。VAE 是一种相对简单但优雅的概率架构,它在分子空间中的应用创造了一些真正非凡的可能性。
研究人员已经证明,我们可以使用 VAE 将它们嵌入到连续空间(例如 256 维)中,而不是直接处理分子图。这特别有价值,因为分子空间是离散的,而且大到天文数字,即使使用超级计算机,直接处理也极具挑战性。相比之下,即使使用个人计算机也可以有效地处理 256 维的连续空间。
为了实现这一点,我们首先使用 SMILES 字符串符号表示分子,然后将其传递给 CNN 编码器以将其转换为向量。VAE 直接处理这些向量,进一步减少了维数。此过程有效地将 SMILES 字符串压缩为具有可管理维度的向量。为了恢复 SMILES 字符串,我们构建了一个对称解压缩架构。
这种架构使我们能够根据从数据中学习到的分布生成 SMILES 字符串。实际上,这意味着我们可以通过在压缩空间中随机采样,然后解压缩为 SMILES 字符串来设计新的分子结构。我们还可以通过在 VAE 的压缩向量空间中移动,使用贝叶斯优化或其他连续优化技术来优化分子。
但是,从 SMILES 字符串中恢复原始图本身就存在挑战,导致生成有效图的速率很低。2018 年推出的一种称为连接树的中间结构弥合了序列和图之间的差距。这种方法将原始图转换为树形式,其中每个“节点”代表原始图中的节点子集,从而可以完全恢复原始图。树结构使我们能够应用来自序列架构的扩展技术。例如,我们可以用 VAE 对树进行编码并将其嵌入多维连续空间中,从而实现对新树的最佳搜索。权衡是连接树上的计算要复杂得多。
11、使用强化学习进行图设计
虽然使用 VAE 或生成模型提供了数学上的优雅,但它面临两个关键挑战。首先,模型从已知数据中学习分布,这使得在支持区域之外生成全新的数据变得困难。换句话说,它们插入基因对位于已知分子之间的新分子进行评级。其次,我们必须通过中间表示进行工作,而我们主要关注的是分子的预期特性。
强化学习方法有助于解决这些限制。我们可以将图形设计视为逐步执行的构建操作序列。在序列结束时,我们有一个图,我们可以通过既定规则、中间模型或量子模拟来评估其属性。
11、分子合成过程
在开发出有前途的分子设计后,下一个问题是:我们如何在湿实验室中合成它?通常,我们依靠化学反应从已知物质合成新物质。
这对人工智能提出了两个挑战。假设我们知道所有可能的化学反应,我们可以从可用物质开始规划一系列反应来创建所需的化合物。这个计划应该快速、经济高效且安全。
然而,并非所有反应都是预先已知的,这增加了预测反应结果的挑战。
我们最近在 KDD'19 上发表了一篇关于这一主题的论文。我们证明了我们可以使用一种名为 PGPN(图形转换策略网络)的新技术以足够的准确度预测化学反应产物,该技术结合了强化学习和图形表示。核心见解是,化学反应可以看作是一个图形同态问题:分子被视为更大图的子图,化学反应本质上改变了原子之间的键,而不改变原子本身。换句话说,反应后图只会改变结构,而不会改变组成。
12、新游乐场
凭借所有这些进步,我们现在拥有一个完整的游乐场来评估化学和制药过程中的步骤。 MOSES 提供了这样一个平台的绝佳示例:
祝你好运探索这些令人兴奋的可能性!
原文链接:Modern AI for drug discovery
汇智网翻译整理,转载请标明出处