政府统计处(统计处)在进行「住户开支统计调查」时,需处理大量由受访住户上载或提交的消费收据,以分析本地住户的开支模式。这些收据来源多元(超市、餐饮、网购等),格式不一,且常见中英混杂的情况。传统上需依赖人手逐张辨识商店名称、购买日期、商品名称、数量、金额等栏目,并作人手输入,过程耗时且可能出现人为错误。 为应对这挑战,统计处今年较早时开展概念验证,在统计处的大数据分析平台上,运用视觉语言模型自动提取收据中的关键资讯,并经评估后确认自动化处理的可行性与效益。透过已验证的结构化处理流程:收据图片读入 → 自动解析 → 结构化输出 → 人工抽样覆核,此项目将重复性高、规则明确的解析工作自动化。 此AI模型已在「2024/25年住户开支统计调查」的后期阶段引入,初步结果显示模型能缩短人手数据输入时间。在下轮「住户开支统计调查」中全面实施时(包括进一步提升从图片中提取资讯的准确性和可靠性,并建立与电脑系统之介面),整体处理收据图片的时间预计将大幅缩短超过90%。 统计处未来将积极运用数据科学及AI技术,以继续提供切合社会所需的高质素统计服务。 |