中国循证儿科杂志 ›› 2025, Vol. 20 ›› Issue (2): 139-145.DOI: 10.3969/j.issn.1673-5501.2025.02.009
刘钊1, 李惠民2, 聂晓璐1, 彭亚光1, 吴小会2, 赵顺英2, 彭晓霞1
LIU Zhao1, LI Huimin2, NIE Xiaolu2, PENG Yaguang1, WU Xiaohui2, ZHAO Shunying2, PENG Xiaoxia1#br# #br#
摘要: 背景:医疗机构电子病历数据(EMR)用于研究时常受非结构化数据影响,无法直接应用,需要利用自然语言处理技术将其进行结构化转化,以便符合临床研究数据的质量要求。 目的:基于儿童结核病病例的电子病历、住院病案首页等真实世界数据构建专病数据库,从而为其临床特征、诊断策略的效果与效率、预后及预后因素等研究提供数据基础。 设计:横断面调查。 方法:系统检索首都医科大学附属北京儿童医院2007年3月至2024年1月的住院病历,提取ICD-10编码为A15-A19(结核病)的所有患儿信息,以基于多学科专家意见构建的儿童结核病病例报告表为基础,参考医学系统命名法-临床术语、卫生信息基本数据集编制规范等行业标准和编码标准建立儿童结核病标准数据集,利用自然语言处理技术构建专病数据库。完成数据处理后,从数据库中随机抽取10%的病历数据,由两人独立进行与原始病历的比对核查,核查准确率要求>95%。 主要结局指标:准确率=正确识别的实体数/识别出的实体数×100%。 结果:本专病数据库共纳入8 097例(12 957例次)因结核住院诊治的患儿,其中确诊单纯肺结核患儿1 397例,单纯肺外结核患儿554例,肺结核合并肺外结核患儿553例,以上三种诊断中有467例(18.6%)为疑似结核病例;其余5 593例为结核感染病例。8 097例结核病患儿中,57.6%为男性;平均年龄为(7.3±4.7)岁,来自北京地区患儿占18.6%,未接种卡介苗的患儿275例(3.4%),仅有921例(11.4%)患儿有明确结核病例接触史。利用自然语言处理技术抽取字段的准确率均>95%。 结论:儿童结核病专病数据库的建立为儿童结核感染病例的预防性治疗效果评价、儿童抗结核药物性肝损伤风险评价等重要问题开展真实世界研究提供了数据基础。