人口普查的创新发展
除了传统的抽样调查外,政府统计处(统计处)亦致力探索如何运用新数据来源,以降低数据收集成本和减轻受访者的负担,同时确保编制统计数据的质素。要将这些数据融入我们的工作,需要与部门现有处理的数据作连接。由于涉及大量的记录及来自不同来源的数据格式差异,这过程可能会有挑战性。人工智能技术正是处理这些复杂过程的有效工具。
统计处计划由2026年人口普查开始更广泛和有系统地运用各政府部门收集的行政数据,而应用范畴主要包括以下两方面:
第一方面,是以行政数据替代人口普查中的部分问题(如公共房屋租金、福利金额等问题),从而减少数据收集的成本和受访者的负担。统计处采用自行研发以人工智能技术为基础的记录连接工具,在屋宇单位层面高效准确地把普查样本数据与行政记录进行配对。
第二方面,是以行政数据取代2031年人口普查中覆盖约九成住户的「短问卷」。目前,统计处已全面运用匿名化的出入境记录,编制更精确的人口估计数字,无须再依赖「短问卷」,从而显著缩小操作规模并降低成本。
新的方式会纳入更多行政数据,并重新设计工作流程,预计可大幅降低成本。统计处估计2026年和2031年人口普查的总成本将减少四成,按现时价格计算,大约能节省六亿八千万港元。
请观看下方短片(只有粤语)以了解更多详情。
[展示短片内容]
| 男统计师: |
统计处每月要处理过百万份报关单,用作编制「每月对外商品贸易统计数字」。
过往电脑系统很难处理文字资料,只可以靠人手抽查和核实一小部分的报关单,是很大的挑战 !
近年我们自家研发了两个AI模型,用深度学习技术模拟人脑识别及分析报关单上的文字和数据。
我们利用数百万条已整理的货物资料用作训练AI模型,教会AI自动检查每条新报关单记录里的文字,检视货物编号是否正确,还会计算货物的价值和数量是否合理。
2024年初我们已全面应用AI模型处理报关单,效果不错! AI模型只需要两个半小时,便能核实每个月约三百万条报关单记录,较以往验证到更多报关单,提升了数据质素,更节省超过四成人手。
透过节省所得的人手,我们开设了两个新科别,数据科学科和社会数据发展科,还扩充了大数据团队,专门负责大数据推广应用和培训的工作。 |
| 女统计师: |
一直以来,每十年一次的人口普查需要全民参与,当中一成人答长问卷,其余九成人答短问卷,而中间每隔五年一次的中期人口统计,只需要一成人答长问卷,短问卷问及简单的人口特征,例如年龄、性别、是否永久居民等等,这些资料会用以计算香港人口基数。部门利用2021年人口普查数据做过研究,发现入境处的出生、死亡和出入境纪录,这些行政数据已能准确掌握人口结构,可以取代短问卷的功能。
由2026年起,我们会每五年做一次人口普查,做法就像中期人口统计,只会抽选一成人答长问卷,加上利用行政数据计算的人口基数,就可以得到以往全面人口普查般准确的结果。
另外,我们也积极利用其他部门的行政数据,缩短长问卷的内容,例如房屋署和差饷物业估价署提供单位面积,社会福利署提供资助金额等。我们会将这些数据和普查数据配对,变相市民毋须回答这些问题,这样做既节省成本,又减省了市民的时间!
部门计算过,多用行政数据,加上重组工作流程,2026年和2031年的普查,合共可节省四成成本,即约六亿八千万元! |
| 两位统计师: |
未来统计处会继续探索新技术的应用,精简工作流程和人手,为政府和市民提供更优质的统计服务! |