查看原文
其他

当AI开始问“为什么”,它们会变得更加智能

SSIR 斯坦福社会创新评论 2024-03-12



导读

在社会科学领域,理解“相关性”和“因果关系”的不同是一项重要内容。而在AI的发展中,这个问题也不容忽视:目前,尽管人工智能在语音、图像识别等特定领域、特定类别下,水平已经超过人类,但对日常生活中的事情进行因果推理,AI仍有很大空间。换言之,当人类利用AI开始问“为什么”的时候,我们了解事物发展成因,创造正向变革的能力也会增加。


本文正是这样一篇关于发展“因果AI”,帮助人类更好理解事物之间的因果关系的文章。通过此文,我们希望使读者了解人工智能的前沿发展,并共同设想如何开发、利用AI的潜能,为社会服务。



▲插图:戈登•斯图德(Gordon Studer)


编辑:刘水静作者:塞玛•K•斯盖尔(Sema K. Sgaier)、文森•黄(Vincent Huang)、格雷斯•查理斯(Grace Charles)译校:卢萱、肖励贝


人工智能(AI)的常见使用大多致力于预测人们的行为。它试图预测你的下一项购买,你的下一次鼠标点击,你的下一次工作变动。但当这种技术用于分析健康和发展项目的数据时,可能会遇到问题。如果我们不知道行为的根本原因,我们很容易做出错误的决定,支持无效和有偏见的政策。

例如,AI使医疗保健系统得以预测哪些病人可能有最复杂的医疗需求。在美国,风险预估软件正被应用于2亿多人。根据他们未来可能在医疗上花费的成本,预测哪些病人现在会从额外的医疗服务中获益。它采用的是预测性机器学习,这是一类自适应算法,可以在获得新数据时提高其准确性。但正如健康研究员齐亚德•奥伯迈尔(Ziad Obermeyer)和他的同事们在最近的《科学》杂志(Science)上的一篇文章中所述,这种特殊的工具有一个意想不到的后果:比白人患者患有更多慢性病的黑人患者没有被标记为需要更多的护理。

出了什么问题?该算法利用保险理赔数据,根据患者最近的医疗费用来预测他们未来的医疗需求。但该算法的设计者没有考虑到,因为如无法获得医疗服务、医疗服务不足或缺乏保险等与病情无关的原因,美国黑人的医疗支出通常低于健康状况相似的美国白人。使用医疗保健费用作为疾病的指标数据,导致预测算法的建议对白人患者来说是准确的。较低的医疗保健支出与健康状况良好挂钩,但也延续了医疗体系中对黑人患者的种族偏见。研究人员通知了制造商,制造商用自己的数据进行了测试,确定了这个问题的存在后,与研究人员合作,消除了算法的不足。

这个故事说明了某些AI类型的其中一项危险之处:无论多么完善,预测性算法及其用户都可能陷入将“相关性”(correlation)和“因果关系”(causation)划上等号的陷阱。换句话说,因为事件X先于事件Y发生,所以X一定导致了Y。 预测模型对于建立事件和结果之间的相关性非常有用。它说:"当我们观察到X时,我们可以预测Y会发生。" 但这并不等于表明Y是因为X而发生的。 在医疗保健算法的案例中,白人患者较高的患病率(X)与较高的医疗保健费用(Y)的相关是正确的。X引起了Y,因此用医疗费用来预测未来的疾病和医疗需求是准确的。但对于黑人患者来说,较高的患病率一般不会导致较高的费用,该算法并不能准确地预测他们未来的医疗需求。有关联性,但没有因果关系。

这一点很重要,尤其随着世界越来越多地转向运用AI来帮助解决紧迫的健康和发展挑战。在医疗保健、司法和农业等不同领域,依赖于纯粹的预测模型可能会在“相关性”被误认为“因果性”时带来毁灭性后果。因此,决策者也必须考虑另一种途径:因果AI,它可以帮助识别原因和结果间的精确关系。识别出结果的根本原因并不是因果AI的唯一优势,它还可以通过因果AI算法提出假设问题,来模拟能够改变这些结果的干预措施。例如,如果实施一个特定的培训计划来提高教师的能力,我们应该期望学生的数学测试成绩提高多少?模拟场景来评估和比较一项干预措施(或一组干预措施)对结果的潜在影响,避免了在现场进行冗长测试的时间和费用。

当然,如果正确应用和使用,预测性AI算法可以发挥重要作用。精准农业就是一个很好的例子,它利用预测性AI处理来自卫星图像和传感器的数据,帮助农民预测作物产量,检测疾病和杂草,并识别不同种类的植物。但是,能够预测一个结果,并不等于了解实际原因。预测农民今年的农作物产量会降低是一回事,了解原因才有可能采取措施增加收成。

只使用预测模型的另一个挑战是,我们将从根本上缺乏从一开始了解它们做出特定预测的原因。这是深度学习(deep learning)的一个问题——精准农业中正在使用的这种预测性AI。深度学习的灵感来自于人类脑细胞的组织方式(以 "层 "为单位),以及它们之间的交流方式(从一层的细胞中获取输入信号,转换信号,并将转换后的信号输出给另一层的细胞)。

常用的预测结果的方法比如回归分析,是一种传统的统计技术,它选出一个最佳数学公式将变量之间的关系映射到预测的结果上,深度学习则不同,它可以将变量之间关系复杂得多的关系映射到结果上。通过将输入变量之间的多层关系和结果结合起来,深度学习算法可以学习到比单一数学公式复杂得多的输入输出关系,并利用它们来预测结果。然而,这些关系和中介变量是 "黑箱 "式的,这意味着算法的使用者,甚至是算法的创造者,都无法轻易辨别变量与结果之间以及变量间的关系。这代表我们往往无法知道深度学习模型使用了哪些特征来进行预测。

在处理与人们的生命历程相关的问题时,比如在美国的刑事司法系统中,这种不透明是不可接受的。2016年,有230万美国成年人被关在监狱里,也就是每111人中就有一人,联邦和州政府为此支付着巨额费用。美国各地法院都引入了 “累犯评分”(recidivism scores),试图在不增加犯罪的情况下,通过减少囚犯数量来降低监禁成本。累犯评分是通过预测算法得出的一个单一数字,估计被定罪的人再次犯罪的可能性。理论上,这个分数使得法官可以集中于监禁那些更有可能犯下更多罪行的人,它甚至应该有助于消除量刑中潜在的偏差。但累犯评分本身就有问题,因为它们所采用的风险评估工具是基于统计学上的相关性而不是因果关系。例如,低收入与犯罪相关,但这并不意味着它会导致犯罪。然而,来自低收入家庭的人可能会被自动打出一个高的累犯分数,因此他们更有可能被判处监禁。治理刑事司法系统需要重点了解犯罪的原因,而不仅仅是其相关因素。

仔细研究一下因果AI,就会发现它如何能打开纯AI预测模型运作的黑箱。因果AI可以超越相关性,突出原因和结果之间的精确关系。


01/ 随机对照实验 / 

在卫生或发展部门,检验因果关系的重要性并不新鲜。一个直接的方法是对随机分配到一个人口群体(称为试验组)的人进行干预,而不干预另一个相同的群体(称为对照组)。通过比较两组之间的结果,就可以分离出干预的效果。在临床研究中,这被称为随机对照试验,在市场研究中,这被称为A/B测试。

▲来源/诺贝尔奖官网截图


发展经济学家迈克尔•克雷默(Michael Kremer)、阿比吉特•巴纳吉(Abhijit Banerjee)和埃斯特•杜弗洛(Esther Duflo)被授予2019年诺贝尔经济学奖,以表彰他们率先应用随机对照试验来确定发展问题的根本原因并设计解决方案。这种试验颠覆了一些关于因果关系的传统经验。例如,许多观察性研究曾发现维生素D缺乏与糖尿病、高血压、心血管疾病和癌症风险增加之间存在关联。但随机对照试验表明,维生素D补充剂并不能降低这些疾病的风险——他们没有发现维生素D补充剂与健康结果之间的因果关系。

然而,随机对照试验有其局限性。它需要有由个体组成的大群体,以确保试验结果不会出现偏差,也不会受到年龄、性别、健康状况或教育水平等偶然、离群特征的影响。这往往会使这种试验变得极其昂贵(数百万美元)和耗时(可能需要数年时间来进行)。此外,随机对照试验只能测试一种或最多几种捆绑式干预措施的效果,尽管事实上健康和社会结果是复杂的,有许多潜在的驱动因素。最后,这些试验只能预测一项干预措施是否会对试验组的典型成员产生影响,而不是对具体个人产生影响。

这就是因果AI发挥作用的地方。它为更快、更有效地测试个体和人群组别的因果关系提供了新的机会,同时也拥有揭示潜在复杂性的能力。它帮助研究人员和程序设计人员模拟干预措施,并依靠已有的数据推断因果关系。


02 / 两种揭示因果关系的办法 / 

有两种基于久为人知的原理的因果AI方法:潜在结果框架(potential outcomes framework)和因果图模型(causal graph models)。这两种方法都可以利用真实世界的数据来测试潜在干预的效果。使它们成为AI的原因是其用于揭示大型数据集中因果模式的强大底层算法。二者之间的区别在于可以测试的潜在原因数量。

要了解这两种方法和它们的工作原理,以及它们的差异,请考虑以下假设情况:研究人员想知道反吸烟广告活动能否说服人们戒烟,但没有对照组,因为广告是在全国范围内发布。他们只有一个数据集,显示个人是否暴露在广告中,他们是否放弃了吸烟,以及他们的人口统计信息和其他健康行为的信息。即使没有对照组,因果AI也提供了推断因果关系的方法。

潜在结果框架由统计学家保罗•罗森鲍姆(Paul Rosenbaum)和唐纳德•鲁宾(Donald Rubin)于1983年提出,将受相关原因影响(看到反吸烟广告)的个人的结果(是否戒烟)与同一人未受影响时的推断 "潜在结果 "进行比较。这个方法的挑战在于,对于一个事实上看到该广告的人来说,关于没看到的结果的数据是不存在的。所以,对于每一个看到广告的个体,AI算法会在数据集中找到一个没有看到广告,但在其他重要方面(如年龄、种族和教育程度)相同的个体。换句话说,一个人工对照组被逆向设计,以模仿随机对照试验。其局限性在于,虽然它能够解决没有对照组的问题,但潜在的结果框架一次只能测试一个预先指定的干预措施的效果。在这种情况下,广告活动是否导致了这个人的戒烟决定?

相比之下,因果图模型可以做的不仅仅是测试一对变量间的因果关系。它们可以作为探索性工具,将所有不同的因果路径映射到感兴趣的结果上,并显示不同变量之间的关系。如果将因果图应用于我们的反吸烟运动,它可能会显示,在药店接触到该广告后,一些人直接戒烟,而另一些人则购买尼古丁贴片,这反过来又使他们戒烟。

目前有好几种因果图模型。其中一种被广泛使用的方法是结构方程模型(structural equation model),研究人员指定可能相互作用的变量以及它们可能如何相互作用,然后模型对数据进行分析,揭示它们是否真的相互作用。虽然这种模型可以检验数据中许多这样的关系,但需要利用现有的知识来指定不同变量之间相互作用的整个网络。这种模型的局限性在于它只检验假设变量之间的联系。如果实际造成影响的变量不包括在指定的变量中,它们就不会被评估。

另一种因果图方法是因果贝叶斯网络(causal Bayesian network),这个术语是由计算机科学家和哲学家朱迪亚•佩洛(Judea Pearl)在20世纪80年代创造的,并以18世纪英国统计学家托马斯•贝叶斯(Thomas Bayes)命名。这种方法估量数据集内所有变量之间的关系。它的结果是一个直观的视觉地图,展示哪些变量相互影响,以及它们的影响程度。这种方法的优点是,与结构方程模型不同,这些相互作用不需要在测试前指定,使其成为一种真正的探索方法。

虽然因果贝叶斯网络需要大量的数据来捕捉所有可能的变量,但由于几个原因,这种方法的潜力是令人兴奋的。它可以实现数据驱动的多项因果关系的同时发现。在反吸烟广告活动的例子中,因果贝叶斯网络可能会显示广告和不同戒烟辅助工具的存在如何影响人们的行为,或者它可能会揭示个人意愿如何发挥作用。同样重要的是,与预测性AI的黑箱不同,在因果性AI方法中,变量(广告曝光、尼古丁贴片的可用性)和结果(戒烟)之间的关系对研究人员、项目实施者和政策制定者来说是可见的。

因果图形模型还可以同时模拟多种可能的干预措施。例如,如果不同的反吸烟广告针对不同的年龄段,或者将一般的宣传与同伴教育者的宣传相结合,会怎样?因果图形模型还允许纳入专家知识,以抵消纯数据驱动的方法可能存在的局限。例如,专家可以帮助确定哪些变量应纳入模型,并通过在模型上设置条件以提高其准确性,他们还可以帮助理解反直觉的结果。


03 / 有效应用 /

因果AI领域正在迅速发展。随着其潜力越来越明显,研究人员正在将其投入到气候变化和健康等不同领域,展示了其广泛的前景。

气候变化|因果AI技术已被应用于气候变化,以了解人类是否以及如何成为气候变化的原因之一,以及是什么推动了人们对气候变化的观念。


为了研究这个问题,英国科学家在潜在结果框架中使用了一种叫做反事实事件归因(counterfactual event attribution)的因果AI技术,以确定人类制造的温室气体排放是否是2003年欧洲致命热浪的根本原因。根据一些估计,该热浪造成了7万多人死亡。研究人员利用历史数据、太阳数据、火山喷发信息以及温室气体、气溶胶和臭氧的大气数据,模拟了2003年欧洲各地有人类影响的和没有人类影响下的夏季气温。他们发现,当模型中包括航空旅行或发电等活动时,热浪发生的可能性比排除这些影响时要大得多。2004年发表的这篇论文是最早将极端天气事件与人类活动联系起来的研究之一,它为减少此类活动产生的温室气体提供了有力的论据。联合国政府间气候变化专门委员会也引用了这项研究。

因果AI还确定了导致人们对气候变化的观念变得更加两极化的因素。研究人员对来自美国和澳大利亚的参与者进行了调查,并使用贝叶斯网络来模拟不同的人如何对一系列关于气候变化的信息进行反应。他们发现,当在网上调查中得到关于气候变化的共识信息时,不信任气候科学家的美国人的反应是相信与他们得到的信息相反的信息。这个因果框架提供了一种新的方法来估计世界观、科学信仰和对科学家的信任之间的相互关联关系。像这样的洞察对于塑造公众对应对气候变化行动的必要性的认知非常重要。这样的结果为设计干预性信息传递提供了一个框架,该框架考虑到了参与者根据其信仰和背景可能对信息作出的反应。

儿童腹泻|因果AI为解决广泛而复杂的健康问题提供了机会,而在这些问题上,其他方法并不成功。儿童腹泻就是一个例子。这种疾病是全球5岁以下儿童死亡的第二大原因。许多因素与腹泻有关,但要分清腹泻病的生物和结构性因果关系是极其困难的。这使得设计有效的干预措施变得困难。

巴基斯坦的一项研究使用了来自15,000多个家庭的11万多人的全国调查数据。该调查包括家庭、社会、环境和经济变量。当使用多元回归这一传统统计技术时,研究人员发现有12个家庭变量与腹泻显著相关。然而,这些相关性并不容易解读。例如,有一个变量是家庭的房间数。相比之下,用因果贝叶斯网络分析相同的数据集,产生了一个网络图,揭示了直接影响儿童腹泻疾病的三个变量:使用旱厕而不是连接到排水沟的厕所;依赖自来水、河水或溪水之外的水源;以及缺乏正规的垃圾收集。如果在社会上或国家政策中纳入这些见解,就可以采取有效的干预措施,减少儿童腹泻病。

孕产妇和新生儿死亡率|在许多低收入国家,母亲及其新生儿的死亡率仍然居高不下。妇女在卫生保健机构分娩对母婴的生存和福祉至关重要。通过一项全国性的奖励计划,向在医疗机构分娩的家庭提供报酬(医院分娩本身为300印度卢比[约4美元],如果母亲还利用了产前护理,则再提供300印度卢比),印度政府得以迅速提高住院分娩率。然而,在印度许多邦,这一趋势停滞在80%左右。


在Surgo基金会,我们试图了解为什么妇女不选择在机构分娩,以及需要什么样的额外干预措施才能使她们这样做。我们的工作使用了各种技术,包括因果AI,以确定为什么一些家庭仍然决定在家分娩。在拥有超过2.3亿人口的北方邦,我们进行了几次大规模的定量调查,以测量大量潜在的机构分娩驱动因素。然后,我们使用因果贝叶斯网络来发现驱动这种行为的变量,并确定哪些是最有希望的公共卫生干预目标。

一系列变量与在卫生保健机构分娩相关,但因果AI识别出了直接原因。出乎我们意料的是,与人们的普遍看法相反,母亲离医疗机构的远近并不是其中之一,但交通便利却是其中之一。这表明,政府应该解决交通问题,而不是在离家庭更近的地方建设更多的医疗设施。我们还惊讶地发现,关于医院分娩是否比在家分娩更安全的观念,远比关于医院清洁度、员工能力和员工偏见的观念更重要。有分娩计划也增加了机构分娩的可能性;母亲对财务奖励的认识也会增加机构分娩的可能,验证了政府激励计划的影响。目前,这项研究的结果正被用于模拟假设情景,并试行一项干预措施,由一线卫生工作者帮助北方邦的母亲提前制定详细的分娩计划,如在哪里分娩,如何到达医院,如何支付额外费用等。


04 / 七项关于规模化的建议 /

渴望改善流程,解决问题,提高效率的政府和企业正在采用AI。同样重要的是,从事健康和发展问题工作的人要研究并扩大因果AI的使用范围。与纯粹的预测性人工智能相比,它提供了一条具有明显优势的前进道路。预测模型可以提供强大且通常准确的信息,例如识别乳房X光检查的结果是否可能是乳腺癌病例。但是,因果AI可以通过识别行为或事件的潜在原因网络,并提供预测模型无法提供的关键见解,从而提供更有效的干预措施,推动积极的结果。此外,因果AI并不是在黑箱中运行,允许研究人员检查模型的推理,并像前面描述的减少偏见的风险。


三个趋向性因素表明,因果AI的时代已经到来。首先,AI领域的进展正在凸显因果方法的许多应用,随着模型的完善、扩大和应用于新情况,人们对其价值和局限性有了更多了解。其次,大规模数据集越来越容易获得。就像4K超高清电视比以前的标准清晰度电视每平方英寸的屏幕像素更多一样,更多的数据使预测更清晰、更准确,并增强了对从因果网络中获得的见解的信心。最后,卫生和发展部门越来越强调精准施策,即提出效果最强的干预措施,以便将有限的资源部署到效果最好的地方。因果AI是应对这一挑战的理想选择。

想要成功采用这些方法,我们还需要做一些工作。以下是可以促进因果AI的采纳和使用的七项建议。

1、更好地利用数据并提高其质量。过去十年来,一些大规模的数据收集工作获得了投资。然而,这些数据集往往没有得到充分的利用,它们可以被进一步挖掘,以获得更多的见解。虽然我们看到数据的增长,但其他挑战依然存在。数据集往往是碎片化的,质量参差不齐。将不同的数据集联系起来也是一个挑战。例如,一个数据集的信息是在个人层面记录的,而另一个数据集的信息则是在地区或国家层面记录的。设计共同的指标,用于一个国家的所有数据收集工作,将有助于在数据集连接后从它们中获得最大收获。

2、收集更全面的数据。想要成功应用因果AI需要了解所有可能驱动行为的变量——结构性因素,如政策和法律,以及个人信念、动机、偏见和影响因素。如果在收集数据时对什么信息重要有太多的事先假设,可能会遗漏真正支撑行为或事件的因果变量,从而导致建立错误的因果联系。

3、设计可扩展的高性能开源工具,用于应用因果AI算法。专有算法平台成本高昂,使得健康和发展部门经常无法使用。开源使得软件免费,更容易获得,从长远来看质量也更好,因为更多的人可以检查源代码并提供反馈。一些开源算法(如bnlearn)是可用的,但其准确性和速度需要改进。从业者如果不是因果AI专家,需要知道他们应该遵循什么步骤来在他们的领域应用这种方法。

Surgo基金会正在开发工具,以降低这种方法的使用门槛,并帮助刚开始使用因果AI的组织避免流程缺陷。其中一个例子是一个开源工具,它可以评估一个给定的数据集是否适合应用贝叶斯网络,以及哪些算法最适合在其上使用。Surgo还在开发一个工作流程指南,以帮助因果AI从学术研究跨越到该领域的实际应用。

4、将AI与人类的智慧相结合。单纯的数据驱动方法无法解决发展问题。必须在整个过程中加入专家知识,以确保研究人员和程序开发人员正确解读因果网络。专家可以通过添加约束条件来提高因果AI的性能,这些约束条件反映了系统如何在现实工作的实际知识,并确定数据中是否缺少已知的混淆变量(confounding variables)。而且,随着因果AI的使用的增加,伦理学家和政策专家将发挥重要作用,以确保该方法避免偏见或不准确的陷阱,这些陷阱有时困扰着预测性AI模型的应用。

5、改进评估算法表现的方法。计算机科学家正在研究如何提高因果AI算法的准确性和整体稳健性。评估因果模型准确性的一个典型方法是将结果与已知的因果关系进行比较。但是,如果没有已知的因果关系来验证一个模型,研究人员应该怎么做呢?(毕竟,发现这些关系往往是执行因果AI的首要目标。)

此外,如果因果AI模型的结果与现有的专家知识发生冲突,会发生什么?一种解决方案可能是生成具有与真实数据集相似特征的人工数据集,但变量之间具有预定的因果关系。评估一个因果AI模型在人工数据集上的表现如何,可以帮助研究人员推断在具有类似特征的真实数据集上的预期表现。

6、展示因果AI在发展部门的价值。我们在上文概述的例子很有说服力,但数量不多。对正在进行的工作有更强的了解将有助于刺激因果方法的吸收。Surgo基金会正在使用因果AI来了解如何优化一线卫生工作者的成效,如何决定我们应该扩大哪些干预措施来提高学生的学习,以及如何提高现代计划生育方法的吸收率。随着基金会的发展,我们希望测试因果AI在农业和气候变化等领域的应用。
 
7、建立关键利益相关者的意识和知识。对该领域以外的人来说,因果AI仍然是一个非常新颖的概念。我们需要开展工作,向政策制定者和资助者、方案管理人员以及可应用因果AI的许多部门的监测和评价专家解释其潜力,使他们至少在概念上理解这些方法。


05 / 合乎逻辑的下一步 / 

为了理解这个世界,人类考虑并分析重复出现的规律。从用创造神话来解释天气变化,到使用严格的数据收集和数学模型来预测下一次降雨或飓风路径,我们已经走过了很长的路。但是,我们不断地遇到我们能够观察事物能力的限制和可用来分析数据的方法的限制。

因果AI由于最近的技术变革和数据的日益普及,而成为合乎逻辑的下一步。与社会科学中的其他一些学科相比,尤其是与预测性AI相比,它的优势在于,它可以帮助识别直接导致特定行为或结果的精确因果因素,并且它可以有效地测试改变这些行为或结果的不同方法。这种优势使研究人员和从业人员能够专注于解决当今一些最关键的问题的最佳干预组合,从气候变化到医疗保健。更好的因果推断将帮助项目用更少的资源做更多的事情,并减少时间浪费。而通过将因果AI与人类的专业知识相结合,项目可以避免因人——或他们创造的机器或软件——忽视关键的情景或陷入将相关性误认为因果关系的陷阱而产生的错误。

归根结底,了解复杂问题背后的 "为什么 "有助于我们理解世界的真正运作方式,进而确定正确的行动,以实现预期的结果。我们可能会发现,一盎司的因果AI等于一磅的预测(译者注:英制计量单位,16盎司=1磅)



来源:斯坦福社会创新评论2020年夏季刊

原标题:The Case for Causal AI

作者:塞玛•K•斯盖尔是 Surgo 基金会的联合创始人兼执行主任,哈佛大学陈曾熙公共卫生学院兼职助理教授,华盛顿大学全球健康副教授;

文森•黄是 Surgo 基金会的高级研究科学家;

格雷斯•查理斯是 Surgo 基金会的研究科学家。




关联阅读



1、科技智人能否摆脱“新黑暗时代”的魔咒?

2、人工智能会否引发失业潮?

3、非营利组织全面拥抱“机器学习”的机遇与挑战

4、科技向善:为科技确立合乎人性的发展目标

5、后疫情时代,重新构想“现代智库”

6、系统会自然抵制变化?系统思考者需防止“进步反弹” 



继续滑动看下一个

当AI开始问“为什么”,它们会变得更加智能

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存