人工智能處理貿易文件 – 異常檢測
在大數據時代,政府統計處(統計處)致力運用人工智能(AI)和數據科學提高工作效率,並提升統計服務的質素。統計處每天處理約70,000份進出口報關單,以編製對外商品貿易統計數字,當中涉及核實數以百萬項貨物分類和申報單位價格的複雜工序,而這個過程傳統上需要依賴大量人手審核報關單上以自由文本格式紀錄的貨物描述。
自 2018 年起,統計處率先使用 AI 模型分析非結構化的數據。統計處運用內部資源和專業知識,通過深度學習算法對數百萬條已標記的貨物描述進行訓練,開發了一套貨物編碼和單位價格異常檢測的自動化系統。此創新方法大大減少了人手檢查,也提升了數據質素。在疫情期間,政府實施僱員特別工作安排,並盡量安排部分員工在家工作。儘管當時人手嚴重緊張,此系統仍能確保日常工作順利進行。
2024 年年初,統計處已將這項技術納入其日常工作流程,令人手檢查程序所需的人力顯著減少了 40%。由於效率得以提升,統計處將有關資源重新分配,成立了兩個策略性的新科別:數據科學科及社會數據發展科。這有助統計處加強其在分析大數據方面的能力,把握數字化轉型的機遇,以在不同領域提供更精細的統計分析和更優質的統計服務。
請觀看下方短片(只有粵語)以了解更多詳情。
VIDEO
[展示短片內容]
男統計師:
統計處每月要處理過百萬份報關單,用作編製「每月對外商品貿易統計數字」。
過往電腦系統很難處理文字資料,只可以靠人手抽查和核實一小部分的報關單,是很大的挑戰 !
近年我們自家研發了兩個AI模型,用深度學習技術模擬人腦識別及分析報關單上的文字和數據。
我們利用數百萬條已整理的貨物資料用作訓練AI模型,教會AI自動檢查每條新報關單記錄裡的文字,檢視貨物編號是否正確,還會計算貨物的價值和數量是否合理。
2024年初我們已全面應用AI模型處理報關單,效果不錯! AI模型只需要兩個半小時,便能核實每個月約三百萬條報關單記錄,較以往驗證到更多報關單,提升了數據質素,更節省超過四成人手。
透過節省所得的人手,我們開設了兩個新科別,數據科學科和社會數據發展科,還擴充了大數據團隊,專門負責大數據推廣應用和培訓的工作。
女統計師:
一直以來,每十年一次的人口普查需要全民參與,當中一成人答長問卷,其餘九成人答短問卷,而中間每隔五年一次的中期人口統計,只需要一成人答長問卷,短問卷問及簡單的人口特徵,例如年齡、性別、是否永久居民等等,這些資料會用以計算香港人口基數。部門利用2021年人口普查數據做過研究,發現入境處的出生、死亡和出入境紀錄,這些行政數據已能準確掌握人口結構,可以取代短問卷的功能。
由2026年起,我們會每五年做一次人口普查,做法就像中期人口統計,只會抽選一成人答長問卷,加上利用行政數據計算的人口基數,就可以得到以往全面人口普查般準確的結果。
另外,我們也積極利用其他部門的行政數據,縮短長問卷的內容,例如房屋署和差餉物業估價署提供單位面積,社會福利署提供資助金額等。我們會將這些數據和普查數據配對,變相市民毋須回答這些問題,這樣做既節省成本,又減省了市民的時間!
部門計算過,多用行政數據,加上重組工作流程,2026年和2031年的普查,合共可節省四成成本,即約六億八千萬元!
兩位統計師:
未來統計處會繼續探索新技術的應用,精簡工作流程和人手,為政府和市民提供更優質的統計服務!