“影响力评估”有十大误区，得时时反省 | 测量与评估

Original SSIR中文版斯坦福社会创新评论 2022-05-18

收录于合集 #测量与评估 26个

导读：贾西津，清华大学公共管理学院副教授，清华大学公益慈善研究院副院长
影响力评估是“结果说话”和“数据说话”两个维度的交点。“结果说话”意味着可能会忽略什么呢？可能会忽略要解决的问题，还没有执行好过程就忙于显示绩效。“数据说话”意味着可能会忽略什么呢？可能会忽略假设、理论、测试、思考，或者用更简单的方法收集信息。
这正是本文作者列出的4类10种不适合评估影响力的情境，即：无的放矢、未做就评、力不从心、无用之举。作者对每种情境提出的替代方案则是回到被忽略的那一面。如果说“建立适宜的数据体系”是作者想提出的实操原则，那其背后的问题更值得相关者关注：工具是好的，数据是好的，但不要忘记时时反省，回到目的。

议题编辑：林夕、姚森议题顾问：汪伟楠作者：玛丽·凯·古格提、迪恩·卡兰
译者：廖爱晚

全文约13000字，建议收藏细读

如果你现在就能为一个孩子提供一点帮助，或者等几年的话，可以为五个孩子提供更多的帮助，你会如何选择？花在儿童公益项目上的每一分钱都是为了解决今日之需的、有价值的投资。而如果把这笔钱花在相关的研究上，从理论上来说，能在未来为更多的孩子提供帮助。

这的确是一个两难的抉择。然而，毋庸置疑的一点是：那些对考虑不周的研究的投入都是一种资源浪费。

好的影响力评估能对相关政策问题提供严谨的答案，促进相关领域知识、政策和实践的发展。例如，一个叫作“健康良品”（Living Goods）的非政府组织开展了一项评估，以衡量其社区直销模式对当地居民健康的影响。有关该项目影响力的证据是强有力的：这一模式使儿童死亡率下降了 27％。这一证据继而说服了政策制定者、项目伙伴和主要资助方为该组织的快速扩张提供支持，让其项目能惠及 500 万人。这些缜密的证据在组织扩张的过程中进一步验证了这一模式，并帮助它更好地运转。

当然，并非所有严谨的研究都能获得如此立竿见影的成果。想一想那些为开发一款药物而进行的繁复研究，以及为取得监管许可和被医疗系统采纳所需要经历的冗长流程，扶贫问题的研究也同样如此。一家叫作“扶贫创新行动”（Innovations for Poverty Action，简称 IPA）的非营利组织自 2002 年成立以来已经开展了 650 多项随机对照试验。这些研究有些已经为如何更好地利用稀缺资源（例如免费分发蚊帐以抗击疟疾）、如何避免资源浪费（例如不要扩大传统的小额信贷）提供了有用的依据。但是，大部分研究没有能引发任何即时效应。建立证据基础就像是在绘制镶嵌画：一片图案不能单独成画，片片积累才可集腋成裘。

那么，这些对建立证据的投资是如何产生回报的 ? IPA 对研究的投资回报率做了一个估算，即该组织发起以来被验证的成功案例的大范围推广效应与其所付出成本的比值，这个比值为74。这是一项重大的成果，但这离精确衡量影响力还差得很远。因为 IPA无法证明如果该组织从未存在过的话，结果又会怎样。IPA 认识到，自己所倡导的随机对照试验无法应用在对本机构的评测上。这的确有些讽刺意味，但却是合理的结论。因为许多问题和情境都不需要进行随机对照试验。

尽管如此，我们可以通过一个简单的思维练习来说明潜在的回报。IPA 从来不是单枪匹马地工作，所有的评估和政策参与都是与学术人员和项目执行机构共同合作的，与政府的合作也在增加。从创意到研究，再到政策，这个过程需要多个步骤和多方参与，往往耗时数年。哪怕在促成相关政策改变的功劳簿上 IPA 只能占一成，仍意味着收益与成本的比率高达7.4。这算得上是一个相当稳健的回报。

尽管优质的影响力评估已经显示出了巨大的价值，但仍有大量资金和时间被浪费在了设计不良、执行不力、构思不佳的影响力评估项目上。一些研究的样本太小，或者没有充分关注因果关系的确立和定性数据，导致其结果不足为信；而另一些研究则可能没有让利益相关者充分参与其中，导致有用的结果从未得到利用。

影响力评估的泛滥不仅会引发劣质研究和资金浪费，还会分散和抢夺数据收集所需要的资源，而正确的数据收集方式可以帮助组织提高项目绩效。为此，我们撰写了《金发姑娘的挑战》一书，来指导组织设计“量身定制”的证据体系。在经典儿童寓言《金发姑娘和三只熊》的故事中，在森林中迷路的金发姑娘遇到了一座空房子，里面的东西琳琅满目：椅子、粥碗和床铺都有不同的尺码。她每一种都试了试，却发现大多数东西并不适合自己：碗里的粥不是太烫就是太凉，床铺不是太硬就是太软……想要找到一个“刚刚好”的东西真是太难了。就像金发姑娘一样，社会部门的组织需要经历许多的选择与挑战，才能建立起适合自身需求的监测和评估机制。一些组织在数据收集方面过犹不及，而另一些组织则缺乏足够的动力。

为了建立一个适合的证据体系，我们要考虑的不仅是何时去衡量影响力，更重要的是知道何时不要去衡量影响力。影响力评估可能带来的诸多好处似乎不言自明，但在某些情况下，过分追求影响力评估可能会对其他重要数据的收集造成不良影响。

1
影响力评估不是当务之急

既然影响力评估如此重要，那么我们为何还要倡导对其使用加以限制？影响力评估迅速升温的背后是收集和分析数据成本的急剧下降。30 年前，长途电话对于捉襟见肘的非营利组织来说是一项昂贵的支出。今天，免费视频通话能瞬间连接起世界各地。以往非营利组织可能觉得收集数据太过耗时、耗钱，而如今收集、储存和分析数据的费用已经大幅降低，我们可以在几分钟内处理数百万个数据点，并将分析结果传递给现场操作人员。卫星成像技术和众多的 GPS（全球定位系统）监测设备的普及正在快速影响着项目运转的方式。项目的评估者和研究者可以提出更丰富多样的问题，非营利组织和利益相关者们也更有收集数据的动力。

衡量项目成果变得容易了，公共和社会部门也对问责有了更多的要求。盖茨基金会、英国政府国际发展部等主要资助机构都要求被资助的组织能够提供影响力的证据。社会影响力债券和按成果付费等做法通过将资金与被证实的成果绑定，来资助有效的行动。而有效利他主义的支持者则企图说服慈善家只捐助那些能证明其成效的项目。虽然影响力评估的潮流目前多半是积极的，但是，对彰显影响力的强行要求也造成了资源的浪费，使得项目监测向影响力评估妥协，还助长了劣质甚至是误导性的影响力体现方式。例如，许多组织收集的数据都超出了它们手头的资源能够分析的范围，导致时间和人力的浪费。还有一些组织收集了错误的数据，它们跟踪项目的进程变化，却无法知晓这些变化是由该组织所引起，还是仅仅恰好与项目的实施同时发生。糟糕的影响力评估还可能带来误导性的甚至全然错误的结果，从而引发未来决策的偏差。有效的项目可能被忽视，而无效的项目却被错误地资助。

这些浪费许多是源自对“影响力”这个词的滥用。影响力不仅仅是个流行语，也

体现了某种因果关系。它告诉我们，一个项目或组织如何改变了周遭的世界。也就是说，影响力评估必须包括对这一项目不存在的情境进行的评估，即评估者们所说的“反向事实”。这一术语听来高深，但它对评估如何更好地将有限的资源花在刀刃上至关重要。

在条件允许的情况下，创建一个反向事实的最直接方式就是随机对照试验，随机

分配决定对某个项目或项目某一方面的参与。没有反向事实，我们就无从得知是某一项目导致了某一变化的发生，还是一些外部的因素——例如天气、经济增长或者政策的影响——诱发了这一变化。我们也无从知晓引起那些参与了某一项目的人们的生活改变的真正原因。严密的反向事实设定能够改变根深蒂固的错误信念：例如，对小额信贷基于反向事实的影响力评估发现，其对家庭收入的影响要远低于先前小额信贷倡导者们所声称的水平。

重要的监测数据常常会在影响力评估的过程中遭受连带损失。项目人员的工作情况、项目服务的采纳和使用，以及目标人群对项目执行的意见等信息都能对项目和组织的完善有所帮助。而这些数据却常常在对影响力评估的追求中遗失或被掩盖。这在一定程度上也情有可原：影响力是终极目标，囫囵吞枣难免会将管理数据和影响数据混为一谈。举例来说，对小额信贷类产品的使用是一项重要的管理数据，但它衡量的却不是影响力，因此“服务了 5 万名用户”之类的声明并不能说明其造成了多大影响。

对于执行项目的非营利组织来说，其面临的挑战在于建立并运用数据收集的策略和体系，以便在时机成熟时准确地反映项目影响力、体现项目的公信力，并为决策者提供及时且可操作的运营数据。而对于资助方和其他利益相关者来说，其面临的挑战在于要求非营利组织为开发这些合体的证据体系负责，并只在合适的时机提出评估影响力的要求。

在以下的篇幅中，我们将列出 10 个不适合评估影响力的情境，并在此基础上提出一个建立合体的监测与评估体系的框架，来帮助非营利组织找到问责、学习与改善等不同场合所需的数据。

2
影响力评估的 10 个误区

影响力评估的 10 个误区可以分为四个类型：无的放矢、未做就评、力不从心、无用之举。在下文中，我们会对这 10 个误区做详细解说，同时为热衷于影响力评估的人们提供有关替代办法的建议。

1

【类型一】无的放矢：未找到合适的手段进行评估

1、手段与目标不匹配。

在评估一个项目时，你可以思考以下这些问题：一个成功或失败的项目的服务对象背后的故事是怎样的？我们是否能够通过改进运作模式，来降低相同服务的成本？我们是否在服务目标人群？我们的目标人群对我们提供的服务感到满意吗？对我们提供的服务存在巨大的需求吗？这样的需求是否是持续不断的，有没有再次光顾的顾客？我们所处理的问题是最为紧要的吗？

这些通常都是主要的利益相关者希望知道的问题。这些问题中的一部分可以通过数据来回答，而其余的则比较难以处理。但关键在于，这些问题的答案并不是对影响力的衡量。

替代办法：想要回答这些问题，数据的收集和分析就必须更加精确地聚焦所提出的问题。对目标人群满意度的了解需要的是反馈数据。改善项目执行的成本效益需要的是每一个场所、产品或服务的具体成本数据。这些都是有待收集的重要的项目监测数据，但它们当中没有哪一个用得着影响力评估。

2

【类型二】未做就评：评估的时机尚不成熟

2.1 项目设计不到位。

运用变革理论是设计一项监测或评估的第一步。变革理论说明的是一个项目应该包含哪些内容、需要完成哪些工作，以及因此而预期产生哪些改变。没有类似的梳理，执行人员就无法对如何运作项目、为什么要这么做形成清晰的理解，而这可能导致执行当中出现巨大的偏差。

清晰表述一个变革理论，不仅是纸上谈兵或者为了取悦资助者。变革理论能够帮助非营利机构采集有效的数据。这些数据可以确保机构按照设计来执行项目，为项目的学习与完善提供反馈和参与情况的信息（两者都不需要反向事实），还能为影响力评估（需要反向事实才有价值）应当追踪的关键信息提供指引。

一个未经验证的变革理论可能含有错误的假设。例如，项目要素之间被假定的联系（“推理”）可能是站不住脚的。这些假设也可能会犯经验性的错误，例如项目产出可能需要以每位参与者完成项目中的培训部分为前提。事实果真如此吗？优质的管理数据可以帮助论证这一点。同样，项目也可能假设自己的服务是被需要的（例如小额信贷），但一个好的需求评估可能表明存在其他合理的信贷选择。

如果在变革理论中的关键假设经过检验之前就开展大规模影响力评估，很可能产生误导和对如何解读结果的意见不一。如果项目被发现不起作用，执行者很可能会抗拒这些结果，辩称项目的评估没有反映当前的执行情况。

替代办法：对变革理论中的基本步骤进行验证是影响力评估开展前的关键。以一个通过向准妈妈传播儿童健康发育和营养信息，来改善产前护理和学前教育成果的项目为例。如果在尚未了解准妈妈们是否会出席培训、采纳推荐的做法之前就开始影响力评估，那就毫无意义。因此，首先要确保的就是项目得到基本的参与。例如，在对一个提供储蓄账户的项目进行影响力评估之前，首先要了解的是服务对象会不会开办储蓄账户，接下来会不会把款项存入其中。如果不会，就该重新考虑对这一储蓄账户的设计。

如果一个变革理论尚在搭建的过程中，那么要做的显然是围绕该项目搭建理论，根据项目执行的每个步骤来检验做出的相应假设，并收集数据进行测试，接着是收集项目执行和使用的监测数据，最后才是影响力评估。项目有没有触及目标人群？这些人群有没有使用项目的产品或服务？他们使用这些产品或服务的时间长度和频繁程度如何？基于这些信息，项目应该如何改进，等等。

当项目尚在调整阶段，仍有未解决的执行层面的问题，此时评估该项目的影响力

就很有可能为时过早。这是一个棘手的状况。我们可以设定一些大致的原则，来决定一个项目是否已经“准备好”接受评估，例如“可以看到对项目的基本需求”，或者“目标人群提供了积极的反馈”。而接下来的挑战就是如何将这些原则应用到具体的情境之中。这个过程中一定会出现意见不一致的情况，而这些原则也无法清楚地回答在任何特定情境当中应该怎么去做。最明智的办法就是按兵不动，等待执行过程中的问题逐一得到解决。如果妇女们没有出席培训，或者教师们没有按照新的课程开展教学，那么需要等待和观察，尝试新的战术或激励措施；与此同时，收集可以显示项目进展的优质监测数据。

2.2 项目执行不给力。

即使一个项目的变革理论已经得到了完善，基本的假设也都得到了验证，但项目的执行仍有可能徘徊不前。如果发现一个执行不力的项目缺乏影响力，那么这样的评估是很难说清楚的。这一发现是执行不力的结果呢，还是因为错误的合作方，或者内乱以及其他外部因素的干扰？不管怎样，如果项目的执行情况不给力，那么此时进行影响力评估实为不妥。

回到我们之前的例子。一个产前培训项目可能会假定准妈妈们对此服务是有需求的，在“理想”的情境中，她们将会参与并完成培训。但要是在项目推出时，培训未能如期得到执行呢？要是并非所有准妈妈都完成了培训呢？在开始影响力评估之前，必须要有基础性的信息显示项目大致是按照设计来实施的，这样才能让利益相关者满意。否则，评估资源就会遭到浪费。

替代办法：采集优质的监测数据，并将其用于项目执行情况的改善。评估者可以与项目领导者合作来改善执行情况，也可以决定某一组织并不适合进行影响力评估。

有时，出于资金或政治上的原因，非营利组织必须立即对项目进行评估，否则就再无机会。这个时候该怎么做？为了决定是否应该进行影响力评估，执行者需要思考以下几个问题。在真实的执行情境中，该评估对回答基于理论提出的问题有帮助吗？立即进行评估是否更有可能让目标人群接受一个具有创新性或争议性的项目？以下所讨论的技术问题是否得到了解决？能不能创建一个可靠的对照群组？如果你对这些问题当中的任何一个有着否定的答案，影响力评估就不是正确的选择。但如果你对全部问题都有肯定的回答，尽管项目尚未到位，此时进行影响力评估仍然能为重要决策提供信息，尤其是当评估者能在评估过程中与政策制定者紧密合作的情况下。

2.3 为时已晚。

对影响力评估的渴望常常出现在一个项目已经扩大规模且无继续扩张的计划之时。然而，此时可能为时已晚。一个项目一旦开始执行，就来不及引入为个人、家庭或社区随机分配方案并进行控制的方式。设立一个非随机对照组或许还是可行的，但却往往难以操作且成本高昂。而这一对照组真正的可比性仍然可能被质疑，从而降低这一评估的说服力。

替代办法：为将来的扩展制订计划。这一项目会在其他地方扩大规模吗？如果会，那么可以考虑影响力评估是否可行。此外，如果这一项目随着非营利组织的学习与改进已经发生了很大的变化，那么影响力评估可能正当其时。

3

【类型三】力不从心：没有足够的能力完成评估

3.1 没有足够的资源。

资源受限会从两个方面影响评估的质量：项目规模可能太小，或者资源太少以至于无法进行高质量的评估。

如果一个项目很小，那么除非其影响力是震撼性的，否则根本就不会有足够的数据来对其进行测量。在此，我们无意显得刻薄，但具有真正巨大影响力的项目确实少之又少，而一个语焉不详的影响力评估还不如不做，花了大量资金却什么也没学到。

同样，如果没有足够的资金来进行优质的评估，那就考虑干脆别做吧。因为你只能获得一个很小的样本，被迫削减了太多想要测评的事项，或者无法按照评估要求去执行。

替代办法：如果你的规模有限，就不要试图勉强回答关于影响力的问题，而是去考虑一下其他的选择。因为你面对的问题多半在别处已经有了答案。通过查阅文献可以了解其他相关领域的评估对此有何回应；这些评估和研究的背景有多大的适用性，干预措施又有多大的相似性。如果没有其他评估能够提供有用的洞见，那就追踪执行情况，定期获取反馈，并收集其他可以替代使用的管理数据。

如果资金有限，非营利组织需要重新考虑成本的构成。数据（尤其是家庭调查的数据）的获取是评估的一项主要花费。而随机对照试验的随机部分实际上是没有成本的。你能够使用更廉价的数据来回答关键的影响力问题吗，行政管理数据是否有用？举例来说，如果要测试一个储蓄项目的影响力，许多人无疑会想知道它对使用者在卫生和教育的开支、农业和企业投资、奢侈品消费等方面的影响。但很多时候，只要看到受管制的金融机构中的存款增加，就已经意味着一定程度上的成功。

如果这一替代办法不甚可行或不尽如人意，那么我们可以专注于追踪项目的执行情况，并收集其他可被利用的管理数据。当然，你也可以选择继续筹资。如果项目所关注问题的认知缺口足够大，那么资助方可能也会对问题的答案感兴趣。比如，你有一个广泛实施却未经检验的项目，或者你正在一个冲突环境中尝试一种新的方法等。

3.2 无法确定项目的间接影响。

许多项目都包含对项目变革理论至关重要的间接影响。例如：一个农业信息干预项目在教授农民新科技的同时，期待他们把所学在邻里家族中分享；一项健康干预计划在保护个人不受某种传染病侵害的同时，期待和这些受到保护的个人有接触的人们也会受益。

以上这些例子中，存在一个简单的问题：我们是否可以合理地推断或者在理想情况下证明这些间接影响力的重要性，以至于忽略它们会从根本上改写项目产出的政策意涵吗？如果这样的话，那么对它们的忽视就可能导致研究的严重缺陷，这个影响力评估根本就不该进行。

正确衡量这些间接影响对于理解一个项目真正的影响力非常重要。以给学童驱虫为例。在爱德华·米格尔和迈克尔·克莱默两人于 2004 年在《计量经济学》（Econometrica）上发表驱虫研究之前，针对学校驱虫项目的影响力研究通常是在学校里开展随机对照试验：让一些孩子服用驱虫药丸，而另一些孩子不服用，对比已服药与未服药的孩子来进行评估。不过我们有充分理由相信，还有一些因素会对同一学校的孩童产生间接影响。

例如在同一个校园里赤脚玩耍的孩子们会彼此传染。所以在任何一个特定的学校内，对照组的孩子实际上也相当于部分地服用了药物。假设这种间接影响非常巨大，大到与直接影响旗鼓相当。那么，即便服药对孩子们的健康和学习表现功不可没，但对比已服药与未服药的孩子，却会得出驱虫药物完全不起作用的结论。米格尔和克莱默的驱虫研究明确地衡量了这些间接影响。这一做法从根本上改变了驱虫项目的成本效益计算：当把间接影响力包括在内，驱虫的效益是相当巨大的。

替代办法：对项目间接影响的评估可以是高质量评估的一个重要组成部分。在考虑如何应对间接影响的时候，首先应当回顾现有的文献和理论来预测这些要素的重要性。如果它们足够重大，那么接下来可以采用两种方法：第一，将间接影响评测纳入实验性设计当中，例如可以设立两个对照组，一个间接地暴露于项目执行当中而另一个没有；第二，收集间接影响力的相关数据，询问参与者们都与谁进行过交流，并绘制社交网络图，这样间接影响的产生路径就可以被估测。然而，如果项目的间接影响无法被估测，并且有可能相当巨大，那么此时进行影响力评估就不是一个好的选择。

3.3 项目环境有太多变数。

有些情境不适合开展影响力评估。例如，很多救灾行动随着形势的变化必须不断地进行调整。此时，严格遵照设计方案执行会增加成本，影响项目执行的质量。

替代办法：追踪项目执行情况，并收集其他可用于强化项目的管理数据。例如，可以考虑是否存在有价值的操作性问题。一些操作性测试可以帮助改进执行情况，例如：通过短信提醒服务对象是否会影响其短期行为？这样的短信该以怎样的频率发送，在一天之中的什么时段发送，具体应该如何行文？现金或移动支付，哪种方式能让服务对象更有效地获得钱款？一次付清而不是分批发放如何影响短期投资的选择？这样的短期操作性问题可能是适合进行评估的。

3.4 执行层级“高不可攀”。

试想一下货币或贸易政策。这类改革通常发生在国家层面，在全国范围内进行政策的随机对照试验显然是不可行的。在县市一级等更低层面的政策有可能进行随机对照试验，条件是城市数量足够多，而且溢出效应也不成问题。同样，政策倡导运动常常瞄准国家或地区等较高层级，因此也不容易进行影响力评估。

替代办法：预期政策如何变化的清晰理论是关键所在。然后就是追踪执行情况，获取反馈信息，并收集管理数据，以显示该理论所暗含的变化是否如期发生。

4

【类型四】无用之举：重复评估或没有评估价值

4.1 重复评估。

在一些情况下，一个项目是否有效可以从另外一项或一系列研究中得到解答。此时，再做一次影响力评估不会带来任何新的收获。但有时资助方或非营利组织的理事会非得要求这一不必要的工作，以期检查他们投资的成效。此外，一些非营利组织也可能不确定现有的证据是否充分，因此投入这种并无必要的影响力评估以求“万无一失”。

替代办法：拒绝不必要的影响力评估，找到好的理论依据，来证明现有的证据可以应用到手头的项目当中。在发表于《斯坦福社会创新评论》2017 年夏季刊上的《走出普适化的迷宫》（The Generalizability Puzzle）一文中，作者玛丽·安·贝茨和拉切尔·格兰斯特为此提供了一些指引。简而言之，两个主要的条件对评估现有研究的适用性非常重要：首先，所评估项目的理论必须要与你的项目相类似，换句话说，二者依赖于同样的个体性、生物性或社会性机制；其次，项目的背景特征应当相对清晰，并且与你手头项目的背景相类似。

我们也建议资助方考虑对扩大化而言更为关键的问题：执行。使用监测工具来判断执行情况是否遵从项目模式的已知内容。同样地，通过追踪项目情况和反馈信息，看看项目的执行是否符合从其他项目研究那里找到的证据，这方面一个很好的例子是赞比亚的“追赶”（Catch Up）项目。赞比亚教育部正在推广已由印度非政府组织 Pratham试点并证明有效的适宜水平教学法。在“扶贫创新行动”和阿卜杜·拉提夫·贾米尔扶贫行动实验室（the Abdul Latif Jameel Poverty Action Lab）的支持下，赞比亚的多个团队正在开展适宜水平教学项目，在该国国情下摸索证据，支持试点性的实施，并监测和评估扩大规模的可行性。

4.2 没有应用价值。

一项影响力评估不仅是为了表明项目是否有效，还应该帮助揭示项目为何有效。如果不能解答“为什么”，评估仅对执行该项目的组织和具体的项目有用，没有可以推广的知识经验，那么该影响力评估就不该进行。这一准则适用于那些几乎没有扩大规模之可能的项目。或许因为这一项目的受益人非常特殊，或许因为该项目本身的罕见性，该项目不太可能得到复制或扩大。如果评估只能发挥一次性的作用，那它们几乎就是不值得破费的。

替代办法：如果一个项目不太可能再次实施，或者缺乏扩大或复制的潜力，那么

最好的行动方案就是衡量执行情况，以确保项目的实施符合预期。如果需要关于“为何”的答案，那么一个清晰的项目理论和优质的执行数据（包括关于早期成果的数据）同样能够帮助理解这一项目为何有效。但在这种情形下，进行投资影响力评估则是不恰当的。

3
收集有价值的数据

从以上分析可以清晰地看出，影响力评估的滥用分散了本应放在对项目执行情况的监测和改进上的注意力。这些步骤看似平淡无奇却至关重要。如果执行不力，即便再好的创意也不会产生影响力。如果缺乏关于执行情况的可靠数据，影响力评估就不应开始。

监测数据常常无法得到应有的重视，因为它们与重要的组织决策之间缺乏关联，也就不能帮助非营利组织学习和迭代。当收集的数据没有被内部使用，监测的努力就被浪费了，也不会对组织的目标有所贡献。

对影响力评估的外部需求低估了项目执行信息的价值，因为这些信息往往和展示

一个项目如何创造影响的变革理论没有关联。看不到这一关联，资助方和理事会就会忽视执行数据的有用性。一个合体的数据监测体系能够产生向资助方展示以影响力为目标的进展数据，并为决策者提供改进项目的可操作信息。这些体系和证明项目的影响力一样重要。

那么，如何建立起这样的数据体系呢？在《金发姑娘的挑战》一书中，我们提出了数据收集的 CART 准则。CART 代表的是数据的可信任（credible）、可操作（actionable）、负责任（responsible）和可应用（transportable）这几方面。

1

可信任：收集优质数据，进行准确分析

可信任的数据是有效、可靠且经过恰当分析的数据。有效的数据能够精确地捕捉

待衡量事项的核心内容。虽然这听起来并不复杂，但收集有效的数据可能是个棘手的工作。

一些类似教育或医疗服务等看似简单明了的内容，在不同的情境中却可以通过迥异的方式来进行衡量。试想，如果要评估寻医问药的行为，是应当了解人们去看医生的情况，

还是和护士接触的情况，或者是拜访传统理疗师的情况呢？提出问题的方式影响着可能获得的答案。

可信任的数据同时也是可靠的。可靠性离不开一致性，收集数据的过程应当前后一致。一台不可靠的体重秤会让一个人每次站上去都称出不一样的体重，但一台可靠的体重秤则不会如此。

获得可信任数据的最后一点是恰当的分析。可信任的数据分析要求正确理解评估影响力的时机，即何时衡量或何时不衡量影响力。如果没有反向事实，即便是衡量影响力的优质数据也会造成对影响力的错误估计。

2

可操作：收集能使用的数据

如果数据最终被束之高阁或深埋箱底，从未被用于项目的改进，那么即便是最可信任的数据也是无用的。面对有“数据支撑”的外部要求，非营利组织收集的数据常常超出了合理预期的用量。理论上说，信息多多益善，然而在现实中，当收集的数据超过了组织可能使用的数量，它们就会陷入甄别哪些信息实际有助于决策的挣扎。

可操作性原则呼吁非营利组织仅仅收集它们会使用的数据。在收集数据前，我们应该先问三个问题：

（1）基于这些发现，我们是否会采取具体的行动；（2）我们是否有实施这一行动所必需的资源；（3）我们是否有意愿做出实施行动的承诺。

3

负责任：确保收集数据的收益大于其成本

数据收集的日渐容易可能会使组织产生一种“越多越好”的麻痹心理。如果将数据

收集的整体成本与其收益相对比，就可以避开这一陷阱。成本除了包括收集数据显而易见的直接成本之外，也包括机会成本。花费在数据收集上的任何资金和时间本可用于其他地方，对这一“机会”的放弃是实实在在的成本。那些提供数据的参与者的成本也举足轻重，却常常被忽略。负责任的数据收集还要求过程透明、注意对个人敏感信息的保护，以及合理的研究实施规范，以使这些目标人群所面临的风险最小化。

除了数据收集的成本以外，其收益情况也必须被纳入考量范围。收集的数据太少，会造成社会成本支出太大。缺乏项目执行的相关数据，就可能掩盖项目的缺陷。

4

可应用：收集那些可以被其他项目所用的数据

从项目的监测和评估中得出的宝贵教训应当有助于建立更有效的项目。因此，监测和评估数据应该被置于一种能够推而广之的背景或理论当中，也就是说，这些数据可以回答某个项目为何有效这一问题。这类理论不必复杂，但应该拥有足够的细节，以便指导数据的收集，并找出那些能让结论站得住脚的条件。如前所述，澄清作为项目基础的理论对于了解要不要评估以及何时去评估影响力，也十分重要。

可应用性也要求非营利组织必须愿意分享自己的发现。这些基于清晰理论的、公开共享的监测和评估数据支撑着可应用的另一个关键要素：复制。清晰的理论和监测数据为哪些东西应被复制提供了重要的信息。在不同背景下开展项目则提供了关于特定干预措施在何时何地将会奏效的有力政策信息。透明性的缺乏将导致巨大的社会成本。没有透明性，其他组织就无法为自己的项目找到前车之鉴。

4
建立适宜的数据体系

CART 准则为收集数据提供了指引。但是仅仅做到这些还不够，非营利组织需要把数据全面融入工作当中，创建适合自己的论证体系。

创建这样的体系应当成为所有非营利组织的头等大事。首先，对许多非营利组织而言，改进绩效监测与管理的机制比影响力评估更为有利，因为可信任且可操作的数据比一个蹩脚的影响力评估所得出的结果更有价值。其次，优质的管理数据能够帮助非营利组织学习与改进，使其更好地为社会提供服务。此外，与理论相关联的公开数据能帮助我们建立何种项目有效，以及在怎样的背景中才会有效的普遍性知识。优秀的项目可以被复制，糟糕的项目则被淘汰。仅在适合的条件下进行影响力评估，能避免对稀缺资源的浪费并将其成效最大化。

论证体系建立的第一步首先发生在组织层面。为了支持项目的学习与改进，所收集的证据必须是可操作的，也就是说，证据必须被融入组织的决策过程当中。一个可操作的数据管理体系有三项任务：

（1）收集正确的数据；（2）以有用的形式及时提交这些数据；（3）为组织使用这些数据培养能力，建立承诺。

非营利组织应当收集五种类型的监测数据。其中，资金和执行这两类数据对许多非营利组织来说比较熟悉。组织可以通过追踪项目执行和项目成本，来展现组织的公信力。而其他三种数据——目标数据、参与数据和反馈数据——尽管通常较少被收集，但对改进项目却非常重要。

获取规模适宜的监测数据的关键在于在外部对问责的要求和内部对管理的需求之间找到平衡。以资金数据为例。外部的问责要求往往聚焦于行政和项目层面的收入与支出，而要在问责的基础上让组织能从数据中有所受益，就需要将成本和收入数据直接与实时的行动相关联，这样可以在不同的项目及项目点之间评估服务的相对成本。

许多非营利组织也收集有关项目执行的监测数据，包括已经实现的产出（例如已经完成的培训）。但是，这些数据却没有和基于清晰的项目理论的决策机制明确相连。一个清晰、具体的变革理论可以帮助组织查明各个项目活动的关键产出，成为制定可靠评估的依据。

目标数据回答的问题是和参与项目的人群相关的。目标数据帮助组织了解它们是否触及了目标人群；如果没有触及目标人群的话，帮助组织查明可以做出哪些改变。目标数据必须定期收集与回顾才能及时调整。

参与数据回答的问题是用户的使用情况。在收集活动追踪数据，且对项目的完成感到自信的基础上，非营利组织下一步要做的就是从参与者的角度来看该项目是否收到了预期的效果。参与数据可以提供关于项目质量的重要信息。参与者如何与项目的产品或服务互动？他们对此有多大的热情？他们是否充分受益？

反馈数据从参与者的角度对项目予以点评。当参与数据显示参与水平较低时，反馈数据就可以提供关于原因的信息。较低水平的参与可能意味着需要来自预期受益者的更多反馈信息，以便改进项目的执行。

5
让数据说话

创建一个可操作的数据体系的另一根本挑战在于如何让决策者利用数据进行决策。要建立“让数据说话”的组织文化，离不开内部的数据分享、让员工对数据的报告负起责任，以及创造一种学习和求知的文化。

为了做到这些，组织首先需要具备分享数据的能力。这并不需要对科技的大笔投资。它可以像一块黑板那样简单，也可以像一个电脑化的数据显示屏那样炫酷，但其目标都是找到一个最简单的系统，让每位员工及时地获取数据。

接下来，非营利组织需要一个可以融入项目运行和组织惯例的数据审核程序。同样，这也不需要很复杂。组织可以在每周或每月的员工会议上呈现并讨论数据。其重点在于数据可以在一个能让项目管理者和普通员工都参与其中的场合，得到定期的回顾。但仅仅开会还不够，项目员工应当为报告数据负起责任，分享哪些地方卓有成效，并在成果欠佳时思考改善绩效的策略。管理人员可以通过参加会议并倾听项目员工意见的方式来兑现组织的承诺。问责的努力应当专注于提高员工领会、解释并回应数据的能力，换言之，就是要专注于学习与改进，而非惩罚。

一个可操作体系的最后一项要素是持之以恒的跟进。组织必须切实地用数据来指导项目决策。如果没有持续的跟进，员工很快就会意识到数据收集并不是真的重要，因而不再为数据的可信度做出努力。

为了能更简洁高效地提高数据的收集和分析能力，我们给出一项三个问题的测试，它适用于任何监测数据的收集：

• 这些数据是否有助于项目的日常运转或决策设计？
• 这些数据是否有助于提高组织的公信力？• 你所在的组织会承诺使用这些数据，并且为此进行必要的投资吗？

如果你无法对以上问题当中的至少一个给出肯定的回答，那么收集数据的工作很可能是无效的。

本文对影响力评估所提出的质疑也许可以理解为从另一个角度思考在正确的时机，对决策者进行更加有用的严谨评估的必要性。当非营利组织或项目尚未准备好进行影响力评估时，它们仍然需要优质的数据来协助决策或改进项目模式的执行。而当一个或数个随机评估显示某种模式确实有效且已做好扩大规模的准备时，一个基于完善的变革理论的监测体系就是关键一环，它可以在项目扩大规模时确保其执行的质量。而在过渡时期，我们希望能将大家的注意力转移到有助于组织学习与改进的证据体系的建立上来。如果这一策略能够最终产生更多有效的影响力评估，我们将无比欣慰。

本文刊于SSIR中文版06期

作者：玛丽·凯·古格提（Mary Kay Gugerty），华盛顿大学丹尼尔·J. 埃文斯公共事务学院非营利管理学教授，也是南希·贝尔·埃文斯非营利和公益事业中心学术主任；迪恩·卡兰（Dean Karlan），西北大学凯洛格管理学院经济和金融学教授，也是该校巴菲特全球研究学院全球贫困研究实验室联席主任，还是“扶贫创新行动”的创始人和影响力很重要（ImpactMatters）的联合创始人；（古格提和卡兰是牛津大学出版社发行的《金发姑娘的挑战：为社会组织寻求适合自身的证据》（The Goldilocks Challenge: Right-Fit Evidence for the Social Sector）一书的作者。）

如果你对该议题感兴趣

欢迎扫码

添加福娃微信

加入我们的研学小组！

▼

专题回顾

1. 创新的效果如何测量？善用不确定性

2. 如何做好慈善事业的监测与评估？这三个要素最重要

3. 诺奖得主的“扶贫行动实验室”有什么新思路？

4. 影响力投资中的“影响力”怎么衡量？

5. 怎么给受助机构设KPI？这五大陷阱要留心

6. 倾听消费者的声音