關性不等於因果關係

注意:此文章由AI生成

在數據分析中,我們經常發現兩個變數(或事件)會同步發生或變化,這就是「相關性」。例如,A發生時,B也傾向於發生。然而,這絕不代表A「導致」B的發生,這就是「因果關係」。將兩者混淆,是人們最常犯的邏輯謬誤之一。

許多看似有理的相關性,其背後往往隱藏著更複雜的原因。以下我們將以著名的「低體重悖論」作為主要案例來拆解這個問題。

主要案例:低體重悖論 (The Low Birth Weight Paradox)

這個悖論是統計學和公共衛生領域中一個極具說服力的例子,完美地揭示了僅僅觀察數據表面會得出多麼荒謬的結論。

1. 驚人的初步觀察(相關性):

研究人員在分析新生兒數據時,發現了一個令人費解的現象:

在所有「低體重」的新生兒中(出生時體重低於2500克),母親有吸菸習慣的嬰兒,其存活率竟然高於母親不吸菸的嬰兒。

如果我們草率地從這個「相關性」直接跳到「因果關係」,就會得出一個極其危險且錯誤的結論:「對於低體重嬰兒來說,母親吸菸反而有保護作用。」這顯然與我們的醫學常識背道而馳。

2. 揭示真相:為何會出現這種悖論?(拆解因果)

這個悖論的根源在於「選擇性偏誤 (Selection Bias)」和一個潛在的「混淆變因 (Confounding Variable)」。

  • 混淆變因: 導致嬰兒體重過輕的原因有很多種。吸菸是一個重要原因,但還有其他更危險的原因,例如:母親嚴重的先天性疾病、胎盤功能不全、嚴重的營養不良等。
  • 選擇性偏誤: 這個研究的觀察對象被限定在一個特定的群體——「低體重嬰兒」。這個「篩選」動作本身就扭曲了數據的全貌。

讓我們來拆解這兩個群體:

  • A組(母親不吸菸的低體重嬰兒): 一個不吸菸的健康母親,她的孩子會體重過輕,通常意味著發生了某些非常嚴重的健康問題(例如前面提到的先天疾病或胎盤問題)。這些問題本身就極大地威脅了嬰兒的存活。
  • B組(母親吸菸的低體重嬰兒): 母親吸菸是導致嬰兒體重過輕的常見且已知的原因。雖然吸菸對嬰兒有害,但相對於A組嬰兒所面臨的那些「未知的、更嚴重的根本性疾病」,「吸菸」這個單一因素的危害程度可能反而較低。

結論:

悖論的真相是:我們比較了兩個完全不同的群體。A組嬰兒的低體重是「更嚴重潛在疾病」的症狀,而B組嬰兒的低體重主要是「吸菸」這個單一因素的結果。因此,A組的嬰兒死亡率更高,並非因為他們的母親不吸菸,而是因為他們背後有更致命的原因。

這個例子有力地證明,當我們只看一個被篩選過的子群體時,數據呈現的相關性可能會與整體情況完全相反,從而誤導我們對因果關係的判斷。


其他網路常見例子

為了更全面地理解這個概念,以下是其他幾種類型的例子:

1. 潛在的第三因素(混淆變因)

這是最常見的類型,一個隱藏的「第三因素」同時影響了我們觀察到的兩個變數。

  • 例子:冰淇淋銷量與溺水人數
    • 相關性: 數據顯示,冰淇淋銷量越高的月份,溺水死亡的人數也越多。
    • 錯誤的因果推論: 吃冰淇淋會導致溺水。
    • 真相(第三因素):炎熱的天氣」才是真正的元兇。天氣熱,人們會買更多冰淇淋消暑,同時也會有更多人去游泳,從而增加了溺水的風險。天氣同時推高了冰淇淋銷量和溺水人數。
  • 例子:消防員出動人數與火災損失
    • 相關性: 一場火災出動的消防員越多,造成的財產損失往往越嚴重。
    • 錯誤的因果推論: 消防員造成了更大的損失。
    • 真相(第三因素):火災的規模」才是決定因素。正是因為火災規模巨大,才需要出動更多的消防員,也正是因為火災規模大,才導致了嚴重的財產損失。

2. 辛普森悖論 (Simpson’s Paradox)

這是一種特殊的統計現象,與低體重悖論有些相似。在分組數據中呈現的趨勢,在合併數據後卻完全逆轉。

  • 例子:某兩種腎結石療法的成功率
    • 分組數據:
      • 治療A: 對於「大結石」的成功率較高;對於「小結石」的成功率也較高。
      • 治療B: 對於「大結石」和「小結石」的成功率都較低。
    • 驚人的合併數據: 將所有病人(不論結石大小)的數據合併後,治療B的總體成功率反而高於治療A。
    • 錯誤的因果推論: 治療B是更好的選擇。
    • 真相: 醫生傾向於將更困難的病例(大結石)分配給效果更好、可能侵入性也更強的治療A,而將較簡單的病例(小結石)分配給治療B。因為治療B處理了大量簡單病例,其總體成功率被「拉高」了。這也是一種選擇性偏誤,即病人的「病情嚴重程度」是影響醫生選擇和治療結果的混淆變因。

3. 純屬巧合的偽相關 (Spurious Correlation)

有些相關性純粹是隨機的巧合,沒有任何邏輯上的聯繫。網路上有許多有趣的圖表專門呈現這類數據。

  • 例子:美國緬因州離婚率與人造奶油消費量
    • 相關性: 在某段時間內,美國緬因州的離婚率與全國人造奶油的人均消費量呈現出驚人的一致性(高達99.26%的相關度)。
    • 真相: 這兩者之間顯然沒有任何因果關係,純粹是數字上的巧合。如果強行解釋,只會得出荒謬的結論。

總結

從「低體重悖論」到「冰淇淋與溺水」,這些例子不斷提醒我們:

  1. 保持懷疑:當看到兩個變數同步變化時,永遠不要輕易下定論說一個是另一個的原因。
  2. 尋找潛在因素:思考一下,是否存在一個我們沒有看到的「第三者」在背後同時操縱這兩個變數?
  3. 注意數據來源:觀察的群體是否是完整的?還是像「低體重悖論」一樣,是一個經過篩選、帶有偏見的子群體?

理解「相關性不等於因果關係」,是培養批判性思維和數據素養的基石。在資訊爆炸的時代,具備這種分辨能力,能幫助我們避免被誤導,做出更明智的判斷。

分類: Uncategorized。這篇內容的永久連結

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *