项目/创新如何评估:做好证明还是讲好故事
本文来源:笔者于2021年9月9日在东亚社会创新共学网络(EASII)中的分享整理,点击可链接至相关文章查看更多。
▍项目如何评估?
▍回到事物本身
Go back to things themselves
首先我们从“一点点哲学”开始。
我在这里强调的是,从胡塞尔到许茨的线索,那种回到事物本身的哲学。在许茨那里,日常生活世界被看作有至高无上的地位。在这样的哲学、社会学传统看来,我们做研究或者是去思考,最高的水平、最理想的程度是既能够去了解日常生活世界当中的规律,并且也能用贴近日常生活世界的语言与人交流、促成相互理解。
按照这种理解,日常生活世界就被作为研究者最高的追求、最高的理想了。当然,这样的理想在很多时候都只能是理想。因为,出于“深入”的需要,我们经常不得不借助各种各样的学科视角、概念体系来作为辅助。不过,即便不能达到,但区分出“理想”仍然是有其价值的。
因为这样的认识会给我们带来方向感:学科视角、概念体系是工具性、辅助性的,尽可能追求研究者与受众之间在日常生活世界中的相互理解才是研究的最高境界;而不是相反。
但是,在主流学术领域以及很多的评估场合,专业人士所做的,不但和上述理想有较大差距,并且还在有意或无意地南辕北辙,扩大这种差距。受到实证主义、一些评估者所追求的专业壁垒的影响(这种壁垒对评估者的地位有保护作用),主流的观念似乎认为,只有数字、数据、实验,才是最值得追求的。
让我们思考一个小例子。比如,我们在路上遇到一起两车相撞的事故。我们要试图去了解它,评价它,我们需要怎么做呢?我们是从车祸现场的画面,这个结果来思考吗?我们是从车速的数据来思考吗?都是,但也不完全是。
我们应该做的,是还原事件的过程,回到日常生活当中,澄清细节,了解驾驶者有没有喝酒,有没有违反规则,当时的状态怎么样,事故是怎么发生的,等等。并且,我们还要结合当下社会中,人们普遍认同的价值标准,来对其做出判断。数据和结果并不是全部。
这就是我开篇介绍的一个理念,大家可以认同,也可以不认同,但是“回到事物本身”,我觉得这句话挺有启发性,值得我们想一想。
▍片面的黄金标准
“ gold standard”?
接下来我想分享的是,忽视事物本身,去追捧工具或方法,到底有什么问题。
我们知道,现在影响评估,以及随机对照试验(RCT)方法非常流行。实验方法的方向以及支持实验方法的经济学家,屡获诺贝尔经济学奖。很多时候,人们把RCT方法看作是影响评估的黄金标准,认为它是一个最科学、最严谨,最具有典范意义的影响评估方法。
但是我们或许应当追问,所谓的黄金标准,是关于什么的黄金标准?谁的黄金标准?我们需要黄金标准吗?
我先说明我的立场:在我看来,实验方法,只是某一种评估路径的黄金标准。那是一种重视因果关系的证明的评估路径;但它并不是评估的全部。个人以为,这一评估路径不太适合创新,并且很可能带来资源的浪费。
关于上述问题,Elliot Stern等人(2012)的工作颇有启发性。
详细说来,Stern等人在其关于“影响评估”的研究报告中归纳,主流影响评估路径的核心理念是“归因(Attribution)”。这一类评估尝试回答的基本问题是“干预是否有效(Did the intervention work)”或“干预是否导致了影响(Did the intervention cause the impact)”。
在这样的提问和思考方式里,“干预(intervention)”及“影响(impact)”是较为确定的,重要的是验证“干预”与“影响”之间的因果联系。在这样的一个思路下,“实验”或许是比较好的选择;“随机对照试验”或许是各种实验、准实验方法谱系中值得参照的“标准”。
但是,现实中的项目和创新是复杂的,作为观察者,我们并不总是能识别出较为明确的“干预”,并且,“因果关系”常常是复杂的,多因一果、一因多果,各种因素之间相互影响的情形是现实中的常态;而清晰对应的因果关系只是特例。
因此,在关注真实而非人为设计的社会情境时,我们需要更开放、更尊重复杂性的思考。例如,针对“影响”,除了上述提到的以“归因”为核心的提问方式之外,我们还可以这么提问:“干预是否带来了不同(Did the intervention make a difference)”。
当我们这么问时,我们关心的就不再是特定影响的归因,而是特定做法(干预)可能带来的各种后果;这里关于后果的追问可以是开放的、探索性的。比如说,做一个图书馆项目,建立了多少个图书馆,这是一种效果,但还有没有其他的效果?完全可能有,它可能会有各种各样的效果。比如说,孩子获得了知识,孩子和老师的关系好了,或者当地的社区改善了,这都有可能的。如果我们不去探索,我们不会知道。我们需要去寻找,需要去探索(可以参考:超越图书馆|乡村图书馆如何接地气地建立一个真正意义上的社区)
但是,实验思路并不特别关注这些后果。
另外,在观察真实社会情境时,有时引起我们注意的是一些有趣的社会现象,这时我们更为关心的是:“那些引起我们注意的社会现象如何得以发生”。换言之,这时我们同样关心因果联系,这与流行的“影响评估”相同;所不同的是,我们并不太关心如何去验证特定原因的后果(Effects of Causes),而是希望去探寻出我们所关心的结果的各种可能的原因(Causes of Effects),以及一个合理解释。
这里关于原因的追问也是开放的、探索性的。总体来说,无论是探索特定干预的各种影响,还是发掘特定影响的潜在原因,准实验或实验设计的方法都没有特别的优势;就其设计思路本身的特点来说,这一路径也难以容纳这些开放式的兴趣。
实验方法的重点只是“验证”。因此,我认为在这个意义上,随机对照试验方法不能说是一个一般意义上的评估的黄金标准——因为它只关注特定的原因到特定结果的因果关系的验证;而验证并不是评估的全部。
关于RCT方法和主流影响评估的适用条件和局限,有很多人会说它很花钱,即使是RCT方法的支持者也这么说。还有人指出,它对NGO生态来说,可能会带来不公平。这些都是重要的问题(可以参考:“影响力评估”有十大误区,得时时反省)。但我认为,这些还不是最关键的地方。
最关键的地方在我们的思想。影响评估(主流的)、RCT方法、黄金标准,这些内容试图用实验、科学、实证这些理念为我们的头脑预设一种思维模式。
在这个思维模式里,不同的方法构成一个金字塔型的层级体系,从下到上,越来越严谨,黄金标准站在金字塔的顶端。但是,这个金字塔其实并不是评估的全部,很多时候它只是论证评估的专业性、劝说我们为评估多付钱的理由。
我们并不是要反对具体的方法,在实际应用中,很多时候方法只是工具;我们要去反思和质疑的,是那种伴随着实证主义的金字塔式的、关于方法的等级观。
▍另一选项:讲一个好故事
我们需要建立和维护一种良好的关系,并且不同项目实施地的政府可能还有一些差异。所有的这些,从一方面看,都是这个项目将遇到的种种困难,从另一个角度看,这些地方也是项目能否取得成功、获得很好的效果的关键。