政府統計處(統計處)的「綜合住戶統計調查」收集本港人口及社會經濟特徵資訊,當中包括受訪者的行業和職業。傳統上,處理問卷中以文字描述的行業和職業資料,均需由編碼員進行人工審核,並按既定的行業與職業編碼標準進行分類。此人工編碼方式雖具相當的準確性,但流程耗時較長,所需人力成本亦較高。
|
|||||||||||||||||||||||||||||||
隨着人工智能的快速發展,特別是大型語言模型的突破性進展,統計處正積極應用人工智能進行編碼工作,輔助甚至部分替代傳統人工編碼流程。初步成效令人鼓舞,人工智能模型在準確率、處理速度與一致性方面的表現令人滿意。
統計處採用風險導向的自動編碼機制,將個案根據自動編碼的預期準確率分為高風險和低風險兩類。對於預測準確率較低的高風險個案,將繼續交由編碼員進行人工編碼,並由主管抽樣檢查;而對於預測準確率較高的低風險個案,模型預測的編碼結果將會被採納,部分個案則仍會被抽樣進行人工覆核,以持續監察模型表現及識別訓練模型時尚未涵蓋的新興行業和職業。以2026年3月的統計調查為例,已有多於一半的編碼採用了自動編碼,顯著提升編碼的效率。機器編碼和人工編碼相輔相乘,除了確保編碼的準確度,也能讓編碼員繼續累積相關的經驗和專業知識。
長遠而言,人工智能有望提高編碼的效率,節省人力資源,還有助改善編碼質素。展望未來,統計處將持續改良和再訓練模型,確保其能應對分類標準的更新以及新興行業和職業的出現,並進一步提升「綜合住戶統計調查」的自動編碼流程。