人口普查的創新發展
除了傳統的抽樣調查外,政府統計處(統計處)亦致力探索如何運用新數據來源,以降低數據收集成本和減輕受訪者的負擔,同時確保編製統計數據的質素。要將這些數據融入我們的工作,需要與部門現有處理的數據作連接。由於涉及大量的記錄及來自不同來源的數據格式差異,這過程可能會有挑戰性。人工智能技術正是處理這些複雜過程的有效工具。
統計處計劃由2026年人口普查開始更廣泛和有系統地運用各政府部門收集的行政數據,而應用範疇主要包括以下兩方面:
第一方面,是以行政數據替代人口普查中的部分問題(如公共房屋租金、福利金額等問題),從而減少數據收集的成本和受訪者的負擔。統計處採用自行研發以人工智能技術為基礎的記錄連接工具,在屋宇單位層面高效準確地把普查樣本數據與行政記錄進行配對。
第二方面,是以行政數據取代2031年人口普查中覆蓋約九成住戶的「短問卷」。目前,統計處已全面運用匿名化的出入境記錄,編製更精確的人口估計數字,無須再依賴「短問卷」,從而顯著縮小操作規模並降低成本。
新的方式會納入更多行政數據,並重新設計工作流程,預計可大幅降低成本。統計處估計2026年和2031年人口普查的總成本將減少四成,按現時價格計算,大約能節省六億八千萬港元。
請觀看下方短片(只有粵語)以了解更多詳情。
[展示短片內容]
男統計師: |
統計處每月要處理過百萬份報關單,用作編製「每月對外商品貿易統計數字」。
過往電腦系統很難處理文字資料,只可以靠人手抽查和核實一小部分的報關單,是很大的挑戰 !
近年我們自家研發了兩個AI模型,用深度學習技術模擬人腦識別及分析報關單上的文字和數據。
我們利用數百萬條已整理的貨物資料用作訓練AI模型,教會AI自動檢查每條新報關單記錄裡的文字,檢視貨物編號是否正確,還會計算貨物的價值和數量是否合理。
2024年初我們已全面應用AI模型處理報關單,效果不錯! AI模型只需要兩個半小時,便能核實每個月約三百萬條報關單記錄,較以往驗證到更多報關單,提升了數據質素,更節省超過四成人手。
透過節省所得的人手,我們開設了兩個新科別,數據科學科和社會數據發展科,還擴充了大數據團隊,專門負責大數據推廣應用和培訓的工作。 |
女統計師: |
一直以來,每十年一次的人口普查需要全民參與,當中一成人答長問卷,其餘九成人答短問卷,而中間每隔五年一次的中期人口統計,只需要一成人答長問卷,短問卷問及簡單的人口特徵,例如年齡、性別、是否永久居民等等,這些資料會用以計算香港人口基數。部門利用2021年人口普查數據做過研究,發現入境處的出生、死亡和出入境紀錄,這些行政數據已能準確掌握人口結構,可以取代短問卷的功能。
由2026年起,我們會每五年做一次人口普查,做法就像中期人口統計,只會抽選一成人答長問卷,加上利用行政數據計算的人口基數,就可以得到以往全面人口普查般準確的結果。
另外,我們也積極利用其他部門的行政數據,縮短長問卷的內容,例如房屋署和差餉物業估價署提供單位面積,社會福利署提供資助金額等。我們會將這些數據和普查數據配對,變相市民毋須回答這些問題,這樣做既節省成本,又減省了市民的時間!
部門計算過,多用行政數據,加上重組工作流程,2026年和2031年的普查,合共可節省四成成本,即約六億八千萬元! |
兩位統計師: |
未來統計處會繼續探索新技術的應用,精簡工作流程和人手,為政府和市民提供更優質的統計服務! |