![]()
你有没有遇过这种情况:每个分组的数字都在上升,但整体的总数却反而下降?这看起来好像不合理,但其实正是统计学中的一个特殊现象 ─ 辛普森悖论 (Simpson's Paradox)。为了让大家更容易理解,我们会用香港劳动人口参与率数字的例子来说明。
我们来比较一下1994年和2024年香港各年龄层的劳动人口参与率(参与率)。除了最年轻组别人士(15至29岁)的参与率因为教育机会增加而略有下降外,其他年龄组别的参与率均有所上升。
(注:15岁以下人口不会被计算在劳动人口当中。)

直觉地说,如果大多数年龄组别的参与率都上升,整体参与率也应该会上升吧?然而,整体参与率却从1994年的61%下降到2024年的55%。这就是辛普森悖论的典型例子:分组数据呈现一种趋势,但整体数据却朝向相反方向。

这种看似不合理的现象,其实源于一个未被考虑到的隐性因素 ─ 香港人口的年龄结构在1994年至2024年间有很大改变。
以上例子阐明了辛普森悖论的关键要点:当不同分组的相对份额有显著变化,且分组的数字(如上面例子中的劳动人口参与率)处于非常不同的水平时,分组趋势和整体趋势可能不会同步,甚至会朝向相反的方向。

辛普森悖论提醒我们,解读数据时除了只看整体趋势,亦要深入分析分组数字,以及注意各组相对比重的变化,才能真正了解数据背后的故事。
黄恺彤
研究经理
2025年9月3日