向茹梅,魏 星, 戴 维, 张丽君, 徐 玮, 田 杰,张宏伟, 孙佳昕,石丘玲
目的 准确、规范的数据是得出可靠研究结果的基础。本文以肺部手术为例,分析麻醉信息系统的数据特征,并进行清洗、转换、集成和归约等预处理,构建可用于科研分析的数据集。方法 收集四川省某肿瘤医院2021年4月至2022年11月行肺部手术患者麻醉信息系统的相关数据。分析源数据特征,并基于Python和SAS软件提出数据预处理流程和宏代码。通过Python的SPLIT语句,SAS宏和函数将文本数据转换为易于数据挖掘的数值数据;通过数据清洗和维归约,填补缺失值、纠正异常和不一致的数据,去除冗余数据;通过NOUNIQUEKEY、SQL和LAG语句实现数据集成,扩大数据体量。 结果 从麻醉信息系统和医院信息系统中导出2个Excel表,共计1 835条麻醉记录和46 612条医嘱记录。源数据分析发现麻醉信息系统存在医疗术语不规范、语义表达多样性、同一药物多种量纲、部分药物带有后缀“备用”的特点。基于上述数据特点和半结构化的数据结构,编译了3个宏(macro),清洗核查全部药物名称、规范化医疗术语以及统一量纲,最终提取麻醉前、术中和镇痛泵的药物各12、24、12种;完成缺失数据的二次补充,平滑噪声和清理不一致数据;剔除了48条(2.62%)非肺手术的麻醉记录,去除与挖掘任务无关的10个字段;经过数据集成,1 748(97.82%)例麻醉数据与医嘱数据相匹配。通过上述数据预处理流程,最终结构化的数据集中共有1 748例患者,99个变量。结论 通过对源数据的分析,制定特异的麻醉数据预处理流程,进而得到了规范、准确的麻醉用药数据。为其他机构麻醉信息的数据科研化提供了方法学参考,同时为需要利用高质量麻醉用药数据的研究提供了可靠的数据基础。