︿

《隨機試驗》為什麼半數新創五年內就沒戲唱了

懷疑態度不是樂觀的敵人,我們愈常問「你的證據是什麼」,就愈有機會發現什麼方法有效,以及什麼方法無效。(圖片取自PAKUTASO)

懷疑態度不是樂觀的敵人,我們愈常問「你的證據是什麼」,就愈有機會發現什麼方法有效,以及什麼方法無效。(圖片取自PAKUTASO)

伍頓(David Wootton)在他的科學史著作中陳述了一六○○年多數受過良好教育的歐洲人相信的事,以此標記人類在知識上的進展。當時的主要知識分子相信狼人存在,相信召喚暴風雨的女巫存在,還相信獨角獸存在。他們相信夢能預測未來,還有太陽繞著地球轉。他們相信老鼠是從稻草堆自發誕生的,以及彩虹是來自上帝的徵兆。他們認為凶手靠近時,受害者的屍體會流血。在莎士比亞的時代,這些可不是非主流概念,而是那個時代最有知識的人認為的事實。

 

鍊金術在這時代是強大的信仰,認為鉛等賤金屬可以變成黃金之類的貴金屬。幾千年來,鍊金術占據了很大一部分的科學研究活動。就連牛頓花在鍊金術的時間也比在物理學多,這讓經濟學家凱因斯認為牛頓「不是理性時代的先河,他是最後的巫師」。

 

驅走鍊金術的不是實驗的文化。恰恰相反:鍊金術士已經做了數百年的實驗。關鍵的轉變是從守口如瓶的、設計不良的實驗,轉變成一絲不苟而且對外公開的實驗。 伍頓評論道:

 

殺死鍊金術的是堅持實驗必須在出版刊物上公開,必須清楚說明發生了什麼事,而且實驗必須能重複驗證,最好是在獨立的見證者面前進行。鍊金術士一直在追求一種祕密知識,深信唯有少數人有能力認識神聖的祕密,而且如果黃金不再稀貴,社會秩序就會崩潰……密傳知識被一種新型知識取代,這種知識既仰賴出版,也仰賴公開或半公開的展示。封閉社會於是被開放社會取代。

 

到了一七五○年,受過良好教育的歐洲人不再相信鍊金術,當然也不再相信有女巫、獨角獸或狼人。今天,我們多數人可以堅定地拒絕數百個有直觀吸引力的想法,像是顱相學、虹膜學、占星術、靈氣、心電感應、尋水術、戴尼提和味覺分布圖,就是因為實驗和公開發表結果。這就是在多數先進國家,包括英國、法國、德國、日本、丹麥和西班牙(但不包含美國或土耳其))多數民眾相信演化的原因。3科學革命不僅改變了我們觀看周遭世界的方式,而且支撐起醫學研究的大幅改善,提高了我們的壽命和生活品質。

可惜,從商業到政策制定,生活中還有太多領域仍像極了鍊金術。當判斷的依據是劣質的評估,結果也不對世人公開,這種處理方式更像在尋找傳說中的賢者之石,而不是進行縝密的分析。當全球一千一百位頂尖主管被要求描述決策過程時,只有不到三分之一表示他們最仰賴的是數據和分析。英國經濟學家哈福德批評「使用統計數據好像舞臺魔術師用煙霧和鏡子的」政治人物。他說,在最壞的情況下,這可能像哲學家法蘭克福(Harry Frankfurt)描述的「屁話王」(bullshitter):屁話王比騙子更糟糕,因為他們甚至不在乎真相,他們對自己的陳述是真是假,一點也不在乎。沒錯,用統計數字撒謊是有可能的,但不用統計數字撒起謊來更容易。

 

遵循科學的道路

 

將隨機試驗用在政策上,需要心理學家坎貝爾(Donald Campbell)所謂的「做實驗社會」(experimenting society)。坎貝爾設想這是「一個誠實的社會,致力於……自我批評……它將直言不諱,勇於面對事實,沒有戒心」。這樣的社會「將是一個去除武斷教條的社會……擁有誠實、公開批評、嘗試實驗的科學價值,而且面對實驗的證據和其他的證據,願意改變曾經擁護的理論」。誠如前文看到的,TOMS的創辦人就是這個方法的典範,他們捐贈六千萬雙鞋子給開發中國家的兒童,鼓勵進行一項隨機評估,然後改變做慈善的方式,以回應令人失望的結果。

 

遵循科學的道路並不總是容易。物理學家費曼(Richard Feynman)曾說:「首要原則是你絕不能欺騙自己—而你是最容易欺騙的人。」偉大的科學家呈現所有的證據,不光是支持自己寶貝理論的數據。無論結果如何,最好的科學家都會對外發表。費曼拿科學正直與「貨物崇拜科學」(cargo cult science)做對比。就像曾經為吸引貨機而建造假跑道的太平洋島民,壞科學看起來也可能像真科學,甚至可能造成短暫的名聲和興奮。可是它的結果最終會被丟進垃圾桶。

 

經濟學家杜芙洛和克雷默(Michael Kremer)認為:「隨機試驗很可能在二十一世紀徹底改變社會政策,就像它在二十世紀徹底改變了醫學一樣。」誠如英國推力小組負責人哈珀恩所言:「我們需要把公共政策從藝術轉變為科學。」這意味著更注重測量,同時承認我們的直覺可能是錯的。有謙虛加上計算能力的地方,就有健康的隨機試驗。

 

莫尼漢(Daniel Patrick Moynihan)參議員是美國社會政策的重要思想家,他意識到評估研究往往可以產生可靠的結果,而不是驚人的結果。每當面對一個新的計畫提議,莫尼漢喜歡引用羅西定律。莫尼漢詼諧地稱社會政策隨機試驗的先驅茱蒂絲.蓋倫(Judith Gueron)為「我們微小但有建設性的成果的聖母」。

 

票房大片充斥著救命騎士和仙丹妙藥、登陸月亮和奇蹟。但實際上,多數有建設性的變化不是突然發生的。從社會改革到經濟變革,我們最好的制度是逐漸發展而來的。隨機試驗使科學、商業和政府得以穩定持續地改善。就像健康飲食,這種方法透過一連串好的選擇一步一步邁向成功。漸進式方法不會一夕重塑世界,但持續一個世代就能看到效果。

 

最好的醫學思想家將這種謙遜的研究取徑付諸實行。有位醫學院院長在開學第一天告訴一年級新生說:「我們在教室教你們的東西,有一半是錯的。不幸的是,我們不知道是哪一半。」實證醫學先驅薩基特(David Sackett)寫道:「專家犯下的第一宗罪是在意見中摻進了聲望和地位,這使他們的意見獲得多於其科學基礎應得的說服力。」曾是世界頂尖癌症研究人員的福克曼(Judah Folkman)指出:「我從失敗學到的東西比成功多。」

 

驅走鍊金術的不是實驗的文化。恰恰相反:鍊金術士已經做了數百年的實驗。關鍵的轉變是從守口如瓶的、設計不良的實驗,轉變成一絲不苟而且對外公開的實驗。(維基百科)

 

半數新創五年內就沒戲唱了

 

商業也是如此。在先進國家,超過半數的新創五年內就沒戲唱了。創業投資者的大部分回報來自旗下少數公司。不斷變化的市場條件無疑有部分影響,不過最好的公司不是光靠運氣,它們也更擅長創造一個縝密的測試與改善循環。誠如一項學術研究的觀察,「企業家精神的重點根本上就是實驗,因為成功所需的知識無法事先得知,也無法從一套首要原則當中推斷出來。」財捷軟體公司(Intuit)創始人庫克(Scott Cook)致力成立一家「熱衷實驗的公司」,而且實驗「失敗是完全沒關係的」。無論結果如何,庫克告訴員工,「你正在做對的事,因為你創造了證據,而證據比任何人的直覺都要好。」記者梅根.麥克阿德(Megan McArdle)論稱,美國的經濟成功建立在「善用失敗」,因為有鼓勵冒險、寬恕和從錯誤汲取教訓的制度。

 

「專家」看法被揭露與數據不相符的例子,在政策領域中不勝枚舉。舉例來說,考慮是否建造新的鐵路線或公路時,政府一般會委託預測有多少人會使用新建設。可是,當研究人員在多年後回頭檢視有多少人實際使用了那項建設時,事實證明,道路交通量預測超過了實際使用道路的汽車數,鐵路客流量預測則高估了乘車人數。在鐵路的例子中,專家預測錯很大。十分之九的預測高估了使用量,而且預測的誤差平均達到兩倍。我們從墨西哥阿卡尤坎城的鋪路實驗可以看到,對基礎建設供應做隨機試驗在實務上是可能的。不過,即使政府選擇不走這條路,我們也必須使用證據建立一個更好的反饋迴路。

 

謙虛是隨機試驗的好盟友,而過度自信可能是隨機試驗的敵人。專家對自己的技能和判斷力愈有自信,使用數據的可能性就愈小。然而,我們從一系列研究得知,過度自信是普遍的性格。八四%的法國人認為自己是高於平均的戀人。九三%的美國人認為自己的駕駛水準高於平均。九七%的澳洲人認為自己的美貌為平均值或更高。從人類演化來看,過度自信已證實是一種成功的策略。在生活中,過度自信可提供一種適應力,讓我們相信成功是自己的功勞,同時避免失敗的指責。

 

問題在於,我們活在一個失敗出乎意料常見的世界。在醫學方面,我們看到只有十分之一在實驗室測試中前景看好的藥物,最終獲得上市批准。在教育方面,我們看到美國的有效教育策略資料中心委託進行的隨機試驗,只有十分之一產生了正面影響。在商業領域,只有五分之一的Google隨機實驗幫助它們改善了產品。縝密的社會政策實驗發現,只有四分之一的計畫有強效的正向作用。一旦提高證據標準,就會看到一個前後一致的發現:多數聽起來不錯的想法,實際上無法奏效。隨著隨機試驗在法律和反恐等新領域興起,它們也可能顛覆那些領域中的一般常識。

 

到頭來,良好的評估無非是追求真理。誠如愛因斯坦的名言所說,「我想知道上帝的想法。其他的都是細節。」如果真有審判日,我猜每個曾努力做完善評估的人,都將藉此機會問全能的上帝:「告訴我,我做到了嗎?」

 

在伍迪.艾倫(Woody Allen)的電影《安妮霍爾》(Annie Hall)中,兩個角色為知名哲學家麥克魯漢(Marshall McLuhan)的觀點彼此爭辯。突然間,麥克魯漢走進鏡頭,告訴其中一人他錯得離譜。另一人說:「喔,要是人生也像這樣就好了!」就許多重要的問題而言,隨機試驗就是和《安妮霍爾》關鍵時刻最接近的東西。

 

建立更準確的人類行為模型

 

對從事最前端研究的人而言,一項重大挑戰是有效地把理論與隨機評估融合起來,以建立更準確的人類行為模型。當然,測試人們比較願意打開紅色信封還是藍色信封的實驗,永遠都有一席之地,不過最有價值的隨機試驗,是能提供更深刻洞察的隨機試驗。布拉特曼(Chris Blattman)在討論從賴比瑞亞隨機試驗中學到的教訓時,反省說,「與其去問:『計畫有用嗎?』我應該問:『世界是如何運轉的?』」布拉特曼主張,透過測試基本假設,有可能得到能普遍適用於不同計畫的洞見。

 

在同樣的脈絡下,經濟學家路德維希(Jens Ludwig)、克林(Jeffrey Kling)和穆蘭納珊(Sendhil Mullainathan)舉了理解「破窗治安維持」(broken windows policing)的例子,這個策略專注於處理輕罪(例如逃票、亂丟垃圾或輕微的破壞財產),藉此減少重大犯罪。這三人認為多數研究人員可能會挑選一小群城市,隨機在其中一半的城市執行破窗治安維持策略,對破窗治安維持做評估。可是他們論稱,如果想瞭解基本原理,更好的方法是購買幾十輛二手車,將其中一半的窗戶打破,停放在隨機挑選的社區,看看更嚴重的犯罪是否因而增加。他們將治安維持實驗稱為政策評估,將汽車實驗稱為機制評估—因為後者探究更深層次的問題,亦即破窗是否會增加暴力犯罪。兩種隨機試驗都有幫助。一個警察局長可能只在乎政策是否有效,不過社會研究人員應專注於提供最有洞見的實驗。

 

隨機試驗在世界各地以很多富有創意的方式執行。墨西哥在二○○五年成立了社會發展政策評估國家委員會(National Council for Evaluation of Social Development Policy),這是一個獨立機構,負責立基於能有效改善貧窮的措施來充實證據。就像許多先進國家在政府核心成立的「推力小組」,墨西哥的國家委員會反映出該國有意在進行隨機試驗方面,成為開發中國家的領導者。

 

另一種很有希望鼓勵隨機試驗的方法,是承諾給予成功的構想更多資金。二○一○年,企業家莫拉.歐尼爾(Maura O’Neill)和發展學者克雷默(Michael Kremer)說服美國國際開發署成立了名為「發展創新創投」的部門。建立在「擴大成功經驗」的原則之上,該計畫執行三層式資助流程。第一輪提供的資金最高為十五萬美元。如果一個專案顯現出成功的跡象(通常是透過隨機試驗),則有資格進行第二輪,最高可拿到一百五十萬美元的資金。若在第二輪證明是成功的,這個點子將進入第三輪,有資格從發展創新創投部門拿到至多一千五百萬美元的資金。

 

在聯邦體系裡,政府鼓勵隨機試驗的另一種實用方式,是由中央政府將隨機試驗納入各州經費計畫。這在美國聯邦立法已變得稀鬆平常。例如,處理幫助獄友重返社會的策略的《第二次機會法案》(Second Chance Act),為評估預留了二%的計畫資金,評估「盡可能在最大程度上納入隨機分派……並為哪種重返方法和策略最有效提供證據」。《有教無類法案》(No Child Left Behind Act)要求評估「在可行範圍內,使用方法嚴謹的設計和技巧,包括對照組和隨機分配,以便產生可靠的效用證據」。以家訪改善兒童發展的立法,指示衛生及公共服務部「確保各州使用這筆資金,支持曾在設計精良的隨機對照試驗中驗證的模型,對諸如虐待與疏於照顧等重要的兒童議題帶來可觀的持續影響」。

 

慈善基金會也扮演至關重要的角色。在英國,約有一百項教育相關的隨機試驗正在進行,多數由前面提過的教育基金會發起。這個基金會的主要貢獻不僅在於找出有效的方法,還幫助人們翻查現有研究。教育基金會把研究結果分為五(統計檢定力高且損耗低的隨機試驗)到○(沒有比較組的研究)。就像我在第一章提出的證據等級,基金會的評等系統是估算一項特定評估的可靠性高低的簡單方法。將隨機試驗放在首位,創造了提高證據標準的額外誘因。包括克拉克基金會(Edna McConnell Clark Foundation)、美國成效基金會(Results for America)、阿諾德基金會(Laura and John Arnold Foundation)和彭博慈善基金會(Bloomberg Philanthropies)在內的數個美國基金會,正採取類似的方法,專注於資助隨機試驗,或是已在隨機試驗中證明有效的計畫。

 

說到在乎結果勝過手段,很少有人能擊敗美國小兒科醫生歐茲(David Olds)。歐茲自一九七○年代開始發展他的護士與家庭合作計畫。在接下來的二十年裡,他使用隨機試驗來改進這個計畫。歐茲從一九九六年開始在不同社區推廣計畫。不過,即便如今距離他創立計畫已經過了幾十年,歐茲還是想看它接受測試。具體來說,任何在美國境外想引進護士與家庭合作計畫的人,都必須同意進行隨機評估。畢竟,家訪的影響在英國、荷蘭或加拿大可能有所不同。歐茲概述其個人哲學為:「我想解決問題,而不是提倡一個計畫。」

 

常問「你的證據是什麼」

 

二○○八年,曾捐錢給「不再饑餓」(Freedom from Hunger)經濟發展慈善機構的人,收到了一封再次要求善款的信。36每封信都述說一名貧窮的祕魯寡婦麗塔(Rita)的故事,然後以兩種方式之中的一種請求資助。半數的信件說:「為確知計畫對麗塔這樣的人有幫助,我們期望有比軼事更好的證據。因此我們與獨立研究人員合作,對計畫進行具有科學嚴謹性的影響研究。」另外一半只是聲稱:「『不再饑餓』知道像麗塔這樣的婦女,已準備好終止自家和所屬社區的饑餓。 」

 

事實上,經濟學家正在進行一項隨機試驗,測試捐款者是否在乎一個計畫有隨機試驗的背書支持。平均而言,他們沒有看到任何影響—他們的結論是,對促進捐款沒有影響。不過將結果拆解來看時,研究人員發現,納入關於影響的資訊會提高大額捐款者的捐款率,同時降低小型捐款者慷慨解囊的程度。他們總結認為,對單純想尋求溫暖光輝的人而言,提到評估會讓人擔心並非所有的援助都有效。 但對利他主義者而言,知道某計畫有很大的影響力,會提高其吸引力。

 

來自「不再饑餓」研究的教訓是,我們不僅需要更多的隨機試驗,還需要更積極要求有力證據。我們愈常問「你的證據是什麼」,就愈有機會發現什麼方法有效,以及什麼方法無效。懷疑態度不是樂觀的敵人:懷疑是我們想解決大問題的渴望,轉化為實際結果的渠道。如果我們讓好奇心恣意漫遊,可能會對每丟一次硬幣能多認識世界多少感到意外。

 

※本文摘自《隨機試驗:改變世界的大膽研究》第12章-下一個機會在哪裡?/春山出版/作者澳洲社會科學院院士,曾任澳洲國立大學經濟學教授,曾獲選為澳洲經濟學會的「青年經濟學家」。二○一○年當選國會議員,是澳洲財政部的影子助理部長。熱愛跑馬拉松,自己主持「理想生活」(The Good Life)播客節目,談論如何活得快樂、健康且不傷害環境。與妻子及三個兒子住在坎培拉。著有《選擇開放:為何全球參與對澳洲最有利》(Choosing Openness: Why Global Engagement is Best for Australia)、《政治的運氣》(The Luck of Politics)、《幾乎一切事物的經濟學》(The Economics of Just About Everything)、《鬥士與富翁:澳洲的不平等故事》(Battlers and Billionaires: The Story of Inequality in Australia)、《分離》(Disconnected)。

 




 

 

【上報徵稿】

 

上報歡迎各界投書,來稿請寄至editor@upmedia.mg,並請附上真實姓名、聯絡方式與職業身分簡介。

上報現在有其它社群囉,一起加入新聞不漏接!社群連結

 



回頂端