人工智能处理贸易文件 – 异常检测

AI in Trade Statistics

在大数据时代,政府统计处(统计处)致力运用人工智能(AI)和数据科学提高工作效率,并提升统计服务的质素。统计处每天处理约70,000份进出口报关单,以编制对外商品贸易统计数字,当中涉及核实数以百万项货物分类和申报单位价格的复杂工序,而这个过程传统上需要依赖大量人手审核报关单上以自由文本格式纪录的货物描述。

自 2018 年起,统计处率先使用 AI 模型分析非结构化的数据。统计处运用内部资源和专业知识,通过深度学习算法对数百万条已标记的货物描述进行训练,开发了一套货物编码和单位价格异常检测的自动化系统。此创新方法大大减少了人手检查,也提升了数据质素。在疫情期间,政府实施雇员特别工作安排,并尽量安排部分员工在家工作。尽管当时人手严重紧张,此系统仍能确保日常工作顺利进行。

2024 年年初,统计处已将这项技术纳入其日常工作流程,令人手检查程序所需的人力显著减少了 40%。由于效率得以提升,统计处将有关资源重新分配,成立了两个策略性的新科别:数据科学科及社会数据发展科。这有助统计处加强其在分析大数据方面的能力,把握数字化转型的机遇,以在不同领域提供更精细的统计分析和更优质的统计服务。


请观看下方短片(只有粤语)以了解更多详情。
[展示短片内容]
男统计师:

统计处每月要处理过百万份报关单,用作编制「每月对外商品贸易统计数字」。

过往电脑系统很难处理文字资料,只可以靠人手抽查和核实一小部分的报关单,是很大的挑战 !

近年我们自家研发了两个AI模型,用深度学习技术模拟人脑识别及分析报关单上的文字和数据。

我们利用数百万条已整理的货物资料用作训练AI模型,教会AI自动检查每条新报关单记录里的文字,检视货物编号是否正确,还会计算货物的价值和数量是否合理。

2024年初我们已全面应用AI模型处理报关单,效果不错! AI模型只需要两个半小时,便能核实每个月约三百万条报关单记录,较以往验证到更多报关单,提升了数据质素,更节省超过四成人手。

透过节省所得的人手,我们开设了两个新科别,数据科学科和社会数据发展科,还扩充了大数据团队,专门负责大数据推广应用和培训的工作。

女统计师:

一直以来,每十年一次的人口普查需要全民参与,当中一成人答长问卷,其余九成人答短问卷,而中间每隔五年一次的中期人口统计,只需要一成人答长问卷,短问卷问及简单的人口特征,例如年龄、性别、是否永久居民等等,这些资料会用以计算香港人口基数。部门利用2021年人口普查数据做过研究,发现入境处的出生、死亡和出入境纪录,这些行政数据已能准确掌握人口结构,可以取代短问卷的功能。

由2026年起,我们会每五年做一次人口普查,做法就像中期人口统计,只会抽选一成人答长问卷,加上利用行政数据计算的人口基数,就可以得到以往全面人口普查般准确的结果。

另外,我们也积极利用其他部门的行政数据,缩短长问卷的内容,例如房屋署和差饷物业估价署提供单位面积,社会福利署提供资助金额等。我们会将这些数据和普查数据配对,变相市民毋须回答这些问题,这样做既节省成本,又减省了市民的时间!

部门计算过,多用行政数据,加上重组工作流程,2026年和2031年的普查,合共可节省四成成本,即约六亿八千万元!

两位统计师: 未来统计处会继续探索新技术的应用,精简工作流程和人手,为政府和市民提供更优质的统计服务!