政府統計處(統計處)在進行「住戶開支統計調查」時,需處理大量由受訪住戶上載或提交的消費收據,以分析本地住戶的開支模式。這些收據來源多元(超市、餐飲、網購等),格式不一,且常見中英混雜的情況。傳統上需依賴人手逐張辨識商店名稱、購買日期、商品名稱、數量、金額等欄目,並作人手輸入,過程耗時且可能出現人為錯誤。 為應對這挑戰,統計處今年較早時開展概念驗證,在統計處的大數據分析平台上,運用視覺語言模型自動提取收據中的關鍵資訊,並經評估後確認自動化處理的可行性與效益。透過已驗證的結構化處理流程:收據圖片讀入 → 自動解析 → 結構化輸出 → 人工抽樣覆核,此項目將重複性高、規則明確的解析工作自動化。 此AI模型已在「2024/25年住戶開支統計調查」的後期階段引入,初步結果顯示模型能縮短人手數據輸入時間。在下輪「住戶開支統計調查」中全面實施時(包括進一步提升從圖片中提取資訊的準確性和可靠性,並建立與電腦系統之介面),整體處理收據圖片的時間預計將大幅縮短超過90%。 統計處未來將積極運用數據科學及AI技術,以繼續提供切合社會所需的高質素統計服務。 |