项目/创新如何评估：做好证明还是讲好故事

Original SSIR中文版斯坦福社会创新评论 2024-03-12

本文来源：笔者于2021年9月9日在东亚社会创新共学网络（EASII）中的分享整理，点击可链接至相关文章查看更多。

▍项目如何评估？

一个一般意义上的话题

本文是一篇关于评估的分享。评估的对象，可以是"创新"，也可以是更一般意义上的，例如"项目"。

这里的“项目”可以是社工项目、公益项目，可以是发展项目，还可以更宽泛——把它想象成一般意义上，需要设计、实施、管理、评测的项目活动；如果我们的思考方向是追问评测背后的一般性逻辑的话。紧接着我给出的副标题是：“做好证明，还是讲好故事？当然，这两种方向其实不一定总会产生矛盾，我在这里把它们并列列出来，是为了引起大家的思考。

让我们先看一下整个分享的结构。这个结构从一点点哲学开始。

不过不必担心，虽然会提到一点哲学，但是其实内容是非常少的，只是引入一个话题而已。随后，我将分享关于测量或评估的一点认识，尤其是对所谓的“评估的黄金标准”的认识。在这里，我会分享一些对黄金标准的质疑。承接这一部分，在有了质疑之后，关键在于，我们还能怎么做？我又分成两个小部分来回应这个问题。

第一个部分是分享一个简单易行的、我之前所在的团队也经常用到的评估方法的大概思路；我把它叫做“讲故事”的方法。至于第二部分，是讲评估怎么面对更一般的情况、适应更多元的需求。我的理解是，我们需要一种系统性的思考。但这部分可能不会介绍很多，因为时间有限。所以重点还是放在前面那个“讲故事”的常用方法上。

▍回到事物本身

Go back to things themselves

首先我们从“一点点哲学”开始。

我在这里强调的是，从胡塞尔到许茨的线索，那种回到事物本身的哲学。在许茨那里，日常生活世界被看作有至高无上的地位。在这样的哲学、社会学传统看来，我们做研究或者是去思考，最高的水平、最理想的程度是既能够去了解日常生活世界当中的规律，并且也能用贴近日常生活世界的语言与人交流、促成相互理解。

按照这种理解，日常生活世界就被作为研究者最高的追求、最高的理想了。当然，这样的理想在很多时候都只能是理想。因为，出于“深入”的需要，我们经常不得不借助各种各样的学科视角、概念体系来作为辅助。不过，即便不能达到，但区分出“理想”仍然是有其价值的。

因为这样的认识会给我们带来方向感：学科视角、概念体系是工具性、辅助性的，尽可能追求研究者与受众之间在日常生活世界中的相互理解才是研究的最高境界；而不是相反。

但是，在主流学术领域以及很多的评估场合，专业人士所做的，不但和上述理想有较大差距，并且还在有意或无意地南辕北辙，扩大这种差距。受到实证主义、一些评估者所追求的专业壁垒的影响（这种壁垒对评估者的地位有保护作用），主流的观念似乎认为，只有数字、数据、实验，才是最值得追求的。

让我们思考一个小例子。比如，我们在路上遇到一起两车相撞的事故。我们要试图去了解它，评价它，我们需要怎么做呢？我们是从车祸现场的画面，这个结果来思考吗？我们是从车速的数据来思考吗？都是，但也不完全是。

我们应该做的，是还原事件的过程，回到日常生活当中，澄清细节，了解驾驶者有没有喝酒，有没有违反规则，当时的状态怎么样，事故是怎么发生的，等等。并且，我们还要结合当下社会中，人们普遍认同的价值标准，来对其做出判断。数据和结果并不是全部。

这就是我开篇介绍的一个理念，大家可以认同，也可以不认同，但是“回到事物本身”，我觉得这句话挺有启发性，值得我们想一想。

▍片面的黄金标准

“ gold standard”？

接下来我想分享的是，忽视事物本身，去追捧工具或方法，到底有什么问题。

我们知道，现在影响评估，以及随机对照试验（RCT）方法非常流行。实验方法的方向以及支持实验方法的经济学家，屡获诺贝尔经济学奖。很多时候，人们把RCT方法看作是影响评估的黄金标准，认为它是一个最科学、最严谨，最具有典范意义的影响评估方法。

但是我们或许应当追问，所谓的黄金标准，是关于什么的黄金标准？谁的黄金标准？我们需要黄金标准吗？

我先说明我的立场：在我看来，实验方法，只是某一种评估路径的黄金标准。那是一种重视因果关系的证明的评估路径；但它并不是评估的全部。个人以为，这一评估路径不太适合创新，并且很可能带来资源的浪费。

关于上述问题，Elliot Stern等人（2012）的工作颇有启发性。

详细说来，Stern等人在其关于“影响评估”的研究报告中归纳，主流影响评估路径的核心理念是“归因（Attribution）”。这一类评估尝试回答的基本问题是“干预是否有效（Did the intervention work）”或“干预是否导致了影响（Did the intervention cause the impact）”。

在这样的提问和思考方式里，“干预（intervention）”及“影响（impact）”是较为确定的，重要的是验证“干预”与“影响”之间的因果联系。在这样的一个思路下，“实验”或许是比较好的选择；“随机对照试验”或许是各种实验、准实验方法谱系中值得参照的“标准”。

但是，现实中的项目和创新是复杂的，作为观察者，我们并不总是能识别出较为明确的“干预”，并且，“因果关系”常常是复杂的，多因一果、一因多果，各种因素之间相互影响的情形是现实中的常态；而清晰对应的因果关系只是特例。

因此，在关注真实而非人为设计的社会情境时，我们需要更开放、更尊重复杂性的思考。例如，针对“影响”，除了上述提到的以“归因”为核心的提问方式之外，我们还可以这么提问：“干预是否带来了不同（Did the intervention make a difference）”。

当我们这么问时，我们关心的就不再是特定影响的归因，而是特定做法（干预）可能带来的各种后果；这里关于后果的追问可以是开放的、探索性的。比如说，做一个图书馆项目，建立了多少个图书馆，这是一种效果，但还有没有其他的效果？完全可能有，它可能会有各种各样的效果。比如说，孩子获得了知识，孩子和老师的关系好了，或者当地的社区改善了，这都有可能的。如果我们不去探索，我们不会知道。我们需要去寻找，需要去探索（可以参考：超越图书馆|乡村图书馆如何接地气地建立一个真正意义上的社区）

但是，实验思路并不特别关注这些后果。

另外，在观察真实社会情境时，有时引起我们注意的是一些有趣的社会现象，这时我们更为关心的是：“那些引起我们注意的社会现象如何得以发生”。换言之，这时我们同样关心因果联系，这与流行的“影响评估”相同；所不同的是，我们并不太关心如何去验证特定原因的后果（Effects of Causes），而是希望去探寻出我们所关心的结果的各种可能的原因（Causes of Effects），以及一个合理解释。

这里关于原因的追问也是开放的、探索性的。总体来说，无论是探索特定干预的各种影响，还是发掘特定影响的潜在原因，准实验或实验设计的方法都没有特别的优势；就其设计思路本身的特点来说，这一路径也难以容纳这些开放式的兴趣。

实验方法的重点只是“验证”。因此，我认为在这个意义上，随机对照试验方法不能说是一个一般意义上的评估的黄金标准——因为它只关注特定的原因到特定结果的因果关系的验证；而验证并不是评估的全部。

关于RCT方法和主流影响评估的适用条件和局限，有很多人会说它很花钱，即使是RCT方法的支持者也这么说。还有人指出，它对NGO生态来说，可能会带来不公平。这些都是重要的问题（可以参考：“影响力评估”有十大误区，得时时反省）。但我认为，这些还不是最关键的地方。

最关键的地方在我们的思想。影响评估（主流的）、RCT方法、黄金标准，这些内容试图用实验、科学、实证这些理念为我们的头脑预设一种思维模式。

在这个思维模式里，不同的方法构成一个金字塔型的层级体系，从下到上，越来越严谨，黄金标准站在金字塔的顶端。但是，这个金字塔其实并不是评估的全部，很多时候它只是论证评估的专业性、劝说我们为评估多付钱的理由。

我们并不是要反对具体的方法，在实际应用中，很多时候方法只是工具；我们要去反思和质疑的，是那种伴随着实证主义的金字塔式的、关于方法的等级观。

▍另一选项：讲一个好故事

Tell a good story

如果我们不是那么强调去“证明”、“验证”，那么我们可以不必刻意强调，对“实验”黄金标准的追求。那么问题在于，如果不是“实验”，那我们还可以怎么做呢？

这个问题并不那么简单。我在这里再次强调，我并不反对实验、准实验的方法，我只是反对前面提到的“方法的等级观”。

要思考这一问题，我们需要把思路后退一步，退回来想一想，我们为什么要评估？评估不只是评估者的事，好的评估一定要考虑受众：这也就是我在第2部分中提到的，“追求研究者与受众之间的理解”。但受众是多种多样的，他们有着不同的偏好，有不同的目的。

为什么大型的“实验”评估既费钱，又不易于操作，但还是会这么受追捧呢？其实这里也反映了“市场”的逻辑。那些大力支持大规模实验评估的“受众”，往往是政府，以及大的资方；采用这种评估路径来进行评估的项目，往往是由专项政策或大基金会主导的、成规模的教育、扶贫等大型项目。

这种项目很花钱，同时资方希望其有更直接、清晰的因果关系，这样就更能证明（或“证否”），这样大规模的投入“值”（或“不值”），是否应该追加或者停止投入。“实验”评估的细分市场，本来就是由那些手里握有大量资源、同时期待“证明”的受众构成的；他们既有资源，也有话语权。这样的受众与评估者之间的互动，促成了今天相关评估路径的蓬勃发展。

但对于小额捐赠者、普通投资者、一般公众来说，因果关系的“证明”，或者那种用实验方式来做出的严格证明，或许并不是他们最为关心的。

刚刚在我分享之前，Tom在他的分享中提到，他与捐赠者有长期的交流，在交流中他总结经验，发现“图书馆项目”的捐赠者最关心的问题其实是比较集中的，只集中在少数的几个问题上面。这让我联想到另一专门的慈善评估工具“影响图表（Charting Impact）”，该工具提供了一个由五个问题组成的框架，以帮助各种类型、规模和任务的组织描述他们想要实现的和已经完成的目标。

这五个问题是：

1. 贵组织的目标是什么？

2. 实现这一目标的策略是什么？

3. 你的组织有什么能力来做这件事？

4. 你的组织如何知道自己是否正在取得进展？

5. 到目前为止，你完成了什么，没有完成什么？

值得一提的是，该工具是根据美国近 200 位非营利和慈善领袖的意见开发、测试和完善的；这些问题相当有代表性。我在这里提出这个工具，主要是想以此来说明：除了“证明”，其实我们还可以有不同的评估思路。“影响图表”就是一个讲故事的、描述性的评估路径选择的例子。

不过，要讲好项目和创新的故事并不容易，这同样需要专业性的能力和对材料、事实、数据进行组织的能力。要如何讲好故事，以一种与实验证明有所区别的，描述性、质性的方法来进行创新或项目的评估呢？这里我想分享一个我自己，也是我所在的评估团队的一个经验，我们用一种思路评估了大量的项目。我之前在的团队将这种方法称作“公益项目模式方法”（感兴趣的朋友可以参看陶传进等著《公益项目模式》一书）。

不过，使用什么名称来概括，很多时候只是表达上的不同选择，并不一定重要；关键在于思路。这种方法包含很多的假设和技巧，今天难以完整地介绍，但我特别想借此机会，分享其思路中的一个重点，一种批判-欣赏式的提问方法；运用这种提问方法来发现要讲好故事会遇到的关键“节点”，再将这些节点组织起来。

为了方便理解，我们先来看一个图。

这个游戏可能大家也看过，在东京奥运会期间它出现在google的主界面上。这里有一个小猫，它要登上山顶，它在不断地跳，中间有很多这样的灯，每一个灯就是一个的重要的打卡点。当你登上了山顶，你会发现，或许有不同的路，但不管怎么选择，你一定是经过了不同的打卡点，一步步上来的，对不对？

这是一个直观的例子。评估者或者项目方要讲好一个项目故事，一个重点就是，如何将这些打卡点呈现给受众。不管是作为观察者的评估方，还是作为亲历者的创业家，当我们的项目取得了阶段性的成果，需要展示的时候，我们可以先假设，我们需要评价的项目处在了某处“山顶”。

当然，这只是一个假设，一个关于理想状态的假设，现实当中的项目可能会有很多不完美的地方，可能永远只能接近而无法达到理想状态，或许实际上项目并没有达到山顶，而是只处在山腰，或者山脚。

不过，这并不影响我们的思路。我们仍然可以先做出“项目处在山顶”的假设，先去肯定，然后再来挑战这个假设。如果我们真的登上山顶了，那么过程中我们会经过哪些必由之路、克服哪些困难？

一个可信的故事，重要的是重现并且描绘那些打卡点，而不仅仅只是描绘山顶的状况。

我们都知道登山时我们会遇到非常多的困难。一个没有登过山的人，或许连自己将会遇到哪些困难都不清楚；一个没有自己做过项目、没有经验的人，往往也是这样。我们要让受众相信，我们是登上过山顶的、或者这个创新是可信的、会起作用的，我们需要呈现我们对困难的认识，我们应对困难的办法。

让我拿之前曾提到的图书馆项目来举个例子。我们知道，要做好图书馆项目，很不容易，需要克服很多困难、满足很多的条件。

比方说，如果是我们来做，我们怎么选择合适的图书？学生和老师需不需要参与到选择当中？我们选择好了之后，怎么保证书籍的递送？怎么维护各方面的关系？当书籍送到了当地的学校，我们怎么保证书籍的使用？如果孩子们不愿意看这些书，或者他们没有去图书馆借书的习惯，我们应该怎么办？另外，很多时候，我们需要和学校打交道，有时候还需要和教育部门打交道。

我们需要建立和维护一种良好的关系，并且不同项目实施地的政府可能还有一些差异。所有的这些，从一方面看，都是这个项目将遇到的种种困难，从另一个角度看，这些地方也是项目能否取得成功、获得很好的效果的关键。

问题在于，你知不知道有哪些关键？你能找到吗？你在每个关键的位置，表现得怎么样？为了证明你的表现，你当然可以使用一些数字。但是，数字是全部吗？甚至，是最重要的吗？那些最重要的地方，有没有被包含进来？

另外，创新有很多种，山顶的位置可能有很多种情况，登山的路也并不一定只有一条。关于图书馆项目，规模小的组织可以有小而美的做法，规模大的组织可以有规模化的做法，不同发展阶段的组织，都可以追求自己的山顶、追求适合自己的、项目的最好效果。但是，无论是规模小的组织，还是规模大的组织，它的各种做法都应该是相互关联、相互支持的。

打比方来说，我可以选择从A路径登山，也可以选择B路径，不管选择哪条路径，我所经历的打卡点应该是连续的。如果这些节点不连续、不连贯，那么故事就不可信；或者，很可能是因为在实践中就没有做好。

比如说，如果一个组织处在初期阶段，但它强调的成功经验都是规模化、大范围筹款的经验，那么这样的成功经验就很可疑，有可能项目根本消化不了那么多资金，尽管它可能看起来比较成功，也可能很注意包装。

由于时间关系，这里没法介绍太多操作细节，只是大概介绍一下思路。值得注意的是，这种描述的、质性的思路并不排斥数据和计量方法的使用。只是在思路上更强调对因果机制、节点问题的发现和挖掘；这与更强调对因果关系进行“证明”的思路颇异其趣。

与实验-证明式的评估思路会受到诸如“太花钱”、“对因果机制关注不够”、“没有足够的开放性”这类诟病一样，上面介绍的这种描述性的、挖掘因果机制、节点问题的评估思路也会遇到诟病和挑战。

我们知道，很多情况下，捐赠者之所以会看重评估，是想借助评估来在同类项目中比较、挑选，来决定怎么用资金“投票”。那么，这种“讲故事”式的评估方法，可能需要面对的一个重要挑战是，这种方法能不能为我们在同类项目中的选择提供支持？如果“故事”很多，并且都很精彩，这不同的精彩意味着什么，我怎么能分出好坏？

在我看来，这是很实际，很有道理，同时也很深刻的质疑。这种挑战可能很难彻底解决，但我可以分享一些处理挑战的思路。还是拿登山来做比喻。我们知道，山的类型是有限的，对于某一处山峰来说，例如珠穆朗玛峰，可选登顶的路线也是有限的。

人们怎么知道的呢？通过经验的积累。这种对于路线的归纳，可以看作是一种类型化的努力。对于项目评估而言，道理也是一样的。当我们评价的项目、看的故事多起来之后，我们会发现：其实很多项目是相似的，例如我们会接触到各式各样的捐赠、物资递送类项目，无论递送的物资是图书馆中的书还是医院里的设备，把物资从A处递送到B处，在这一点上，这些项目是类似的，尽管送书还是送设备，可能会遇到不同的挑战。

另一方面，项目会遇到的挑战经常也是相似的，比如如何保证资金使用的效率，如何在帮助受助人的同时避免潜在的损害，等等。

这说明我们也可以对各种各样的项目做类型化的尝试。有时人们会走得更远些，提供一些概念，一些说法，希望从类型化走向理论化，或者走向标准化。

但在我看来，或许不必走那么远；类型化努力的意义是，为同类项目提供一个比较的可能；为了“比较”的实际需求，为了追求这种可能性，我们才有一些必要去做类型化的努力，但类型化本身并不是目的。

就目前趋势来说，就我所知，国内外都往这个方向有一些努力：国内例如我之前所在的团队北京师范大学公益研究中心，会逐步去积累公益项目库；国外的像“影响力基因组项目”（Impact Genome Project）等平台型组织，也试图归纳出公益项目的不同类型、不同“基因”。

但是，值得注意的是，标准化、可比较，与保持开放性、尊重事物本身的复杂性之间始终是存在不可消除的张力的。往“可比较”这个方向走是必要的，但如果追求极致的标准化，那又是过犹不及、会带来弊病的（可以参考：社会影响力测量的下一个前沿并不是测量本身）。

▍更一般的思考

Think more generally

当然，即使我们在“标准化”、“可比较”方面有了一些进展，“讲故事”的思路对于评估来说仍然并不总是合适的选择。那么对于更一般的情况，评估应该怎么做呢？

在我看来，这时需要更一般性的、系统性的思考。前面也曾提到，评估的目标并不总是完全一样。有的时候，评估是为了向投资者提供一个证明，有的时候我们希望通过评估要改进我们自身，有的时候我们进行评估是因为我们想和那些真正关心我们这个项目成长的人进行沟通。

所以，我们应该摒弃那种金字塔式的方法等级观念，在选择评估思路、设计评估方案时需要系统性的，结合具体情境的思考。在我看来，评估的起点并不是问题（problem），因为问题很可能是与评估者选择的方法和方法论相关的。问题和方法会相互影响彼此。

评估最开始的起点应该是一个puzzle，一个困惑，一个好奇心，一个你希望通过评估来加以解决的疑难。我在自己的博士论文中，也尝试表达这种观念，并给出一个思考的框架。时间有限，这部分这次就不再详细介绍了。

整体来说，我的分享是在强调什么呢？我们注意到，无论是社会科学研究，或者是评估，或者是创新，有一种思路是，需要努力去寻找一种与具体情境无关的、普遍意义上的最佳的方法。

我分享的重点则是强调这样一种观点：那样的东西不存在。在特定的情境下，我们或许可以找到适合于情境的最恰当的方法。但是，不存在普遍意义的最好方法。

那种希望消除不确定性，追求普遍意义上最好方法的想象只是一种对复杂性的逃避，尽管它看起来好像是在维护科学。一般意义上说，只存在合适的方法。我们需要扭转一种观念，好的评估并不是建立在那种与情境无关的绝对可靠的方法之上；好的方法是“情境相关”的。

最后让我以我个人非常喜欢的、瑞士学者Ulrich说过的一句话来作为结束：应用研究和设计的合理性并不应通过其能否避免论证中的缺陷来衡量（因为不可能完全避免），而是通过它以透明、自我批评和自我限制的方式处理此类缺陷的程度来衡量。谢谢大家！

推荐阅读

往期回顾

使用测量来管理影响力

如何制作一份可靠的影响力报告

为ESG创造更好的商业范例

继续滑动看下一个

项目/创新如何评估：做好证明还是讲好故事

Original SSIR中文版斯坦福社会创新评论

斯坦福社会创新评论

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

项目/创新如何评估：做好证明还是讲好故事

本文来源：笔者于2021年9月9日在东亚社会创新共学网络（EASII）中的分享整理，点击可链接至相关文章查看更多。

▍项目如何评估？

▍回到事物本身

▍片面的黄金标准

▍另一选项：讲一个好故事

▍更一般的思考

项目/创新如何评估：做好证明还是讲好故事

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

项目/创新如何评估：做好证明还是讲好故事

本文来源：笔者于2021年9月9日在东亚社会创新共学网络（EASII）中的分享整理，点击可链接至相关文章查看更多。

▍项目如何评估？

▍回到事物本身

▍片面的黄金标准

▍另一选项：讲一个好故事

▍更一般的思考

项目/创新如何评估：做好证明还是讲好故事

您可能也对以下帖子感兴趣