政府统计处(统计处)的「综合住户统计调查」收集本港人口及社会经济特征资讯,当中包括受访者的行业和职业。传统处理问卷中行业和职业文字描述的方法是由编码员进行人工审核,将文字描述根据既定的行业与职业编码标准进行分类。这种人工编码方式耗时较长,所需人力成本亦较高。
|
|||||||||||||||||||||||||||||||
随着人工智能中大型语言模型取得了突破性进展,统计处积极研究以人工智能模型进行编码工作,以辅助甚至部分替代传统人工编码流程,同时提升编码的效率和准确度。初步研究显示,人工智能模型的表现令人满意。
统计处研究采用风险导向的自动编码机制,把所有个案分为高风险(即自动编码的预期准确率较低)和低风险(即自动编码的预期准确率较高)两类。对于高风险个案,将仍由编码员进行人工编码,并由主管抽样检查;而对于低风险个案,则会接受模型预测的编码结果,但仍会抽取部分个案进行人工覆核,以监察模型表现及识别训练模型时未有涵盖的新兴职业和行业。机器编码和人工编码相辅相乘,除了确保编码的准确度,也能让编码员继续累积相关的经验和专业知识。
长远而言,人工智能有望提高编码的效率,节省人力资源,还有助改善编码质素。展望未来,统计处将持续改良和再训练模型,确保其能应对编码标准的修订以及新兴行业和职业的出现,并进一步提升「综合住户统计调查」的自动编码流程。