基于SAS软件的地市级医院健康体检数据预处理方法探索

张丽君,黄艳艳,蒲杨,陈柯,徐凡,罗祥力,石丘玲

中国医院统计 ›› 2023, Vol. 30 ›› Issue (1) : 64-70.

PDF(4931 KB)
微信公众号
PDF(4931 KB)
中国医院统计 ›› 2023, Vol. 30 ›› Issue (1) : 64-70. DOI: 10.3969/j.issn.1006-5253.2023.01.013
统计软件应用

 基于SAS软件的地市级医院健康体检数据预处理方法探索

作者信息 +

 Research on the preprocessing method of health examination data in prefecture-level hospitals based on SAS software

Author information +
文章历史 +

摘要

 目的 系统分析当前健康体检数据的数据特征,利用Excel和SAS软件宏过程实现数据预处理。方法 利用某地市级三甲医院2017年10月至2020年12月健康体检数据平台中的健康体检数据,通过数据梳理总结当前体检数据的特征,制定相应的预处理规则,并基于Excel和SAS软件提出具体数据预处理方案、操作流程及宏代码。结果 通过Excel和SAS软件进行了健康体检数据的批量列名转换,使其符合SAS软件变量名命名规则;实现了多个不同结构的数据集合并而不出现截断值,保证了数据库的完整性;通过删除缺失变量和观察、合并重复变量和识别重复观察等过程,最终结合人工识别完成了体检数据预处理,形成了可供研究者进一步使用的健康体检数据库。在处理过程中编写了SAS宏过程,实现了数据预处理代码模块化。结论 通过Excel和SAS软件可以实现健康体检数据高效预处理、提高了数据质量、增加了数据可利用性,为数据库的利用和分析奠定基础,为健康体检数据的多中心研究应用的实现提供可能,具有一定的应用推广价值。

Abstract

Objective To systematically analyze the data characteristics of the current health examination data, and to realize the data preprocessing by using Excel and SAS software macro process.Methods Based on the physical examination data from the physical examination data platform of a municipal tertiary hospital from October 2017 to December 2020, the characteristics of the current physical examination data were summarized through data combing, and the corresponding preprocessing rules were formulated. Based on Excel and SAS software, the specific data preprocessing scheme, operation process and macro code were proposed. data characteristics were summarized through data sorting, preprocessing rules were formulated, and specific solutions, operation procedures and macro codes were proposed based on Excel and SAS software.Results The batch column names of physical examination data were converted by Excel and SAS software, making them conform to the variable name naming rules of SAS software. Multiple data sets with different structures were realized without truncation value, which ensured the integrity of the database. By deleting missing variables and observation, combining duplicate variables and identifying duplicate observation 

关键词

 健康体检数据 /  预处理 /  数据清洗 /  SAS软件

Key words

 health examination data / data preprocessing / data cleaning / SAS software

引用本文

导出引用
张丽君, 黄艳艳, 蒲杨, .  基于SAS软件的地市级医院健康体检数据预处理方法探索[J]. 中国医院统计, 2023, 30(1): 64-70 https://doi.org/10.3969/j.issn.1006-5253.2023.01.013
Zhang Lijun, Huang Yanyan, Pu Yang, et al.  Research on the preprocessing method of health examination data in prefecture-level hospitals based on SAS software[J]. Chinese Journal of Hospital Statistics, 2023, 30(1): 64-70 https://doi.org/10.3969/j.issn.1006-5253.2023.01.013
中图分类号:     

参考文献

 [1]高向阳,陈刚,曾强,等.我国健康管理(体检)机构2018年发展状况调查[J].中华健康管理学杂志,2020,14(5):414-419.DOI:10.3760/cma.j.cn115624-20200308-00129.
[2]刘悦,郝舒欣,宋杰,等.空气污染与疾病关系的时间序列分析中门急诊数据快速清洗及自动分类汇总方法的研究[J].卫生研究,2016,45(4):624-630.DOI:10.19813/j.cnki.weishengyanjiu.2016.04.019.
[3]刘悦,郝舒欣,韩京秀,等.门诊个案数据快速清理及诊断疾病自动编码方法研究[J].中国医院管理,2015,35(9):69-71.
[4]国家药品监督管理局. 国家药监局关于发布真实世界证据支持药物研发与审评的指导原则(试行)的通告(2020年第1号)[EB]. (2020-01-03)[2022-08-07]. https://www.nmpa.gov.cn/xxgk/ggtg/qtggtg/20200107151901190.html.
[5]水明明,石明,李艳萍,等.体检人群非酒精性脂肪性肝病与心血管疾病发病风险的关联性研究[J].中国医院统计,2022,29(2):81-86.DOI:10.3969/j.issn.1006-5253.2022.02.001.
[6]古丽斯亚·海力力,姚华,王淑霞,等.乌鲁木齐市某区全民体检人群代谢综合征组分聚集性与非酒精性脂肪肝关系[J].中华疾病控制杂志,2019,23(11):1358-1363.DOI:10.16462/j.cnki.zhjbkz.2019.11.012.
[7]林予松,王培培,刘炜,等.医疗体检数据预处理方法研究[J].计算机应用研究,2017,34(4):1089-1092.
[8]王路露.SQL在健康体检队列数据清洗、数据报表中的应用[J].无线互联科技,2020,17(17):46-48.
[9]宋杰,郝舒欣,徐东群,等.MySQL在健康相关数据清理中的应用[J].中国卫生统计,2017,34(3):515517.
[10]郭兴华.Excel宏获取汉字拼音首字母在任务驱动教学法中的经验谈[J].中国科教创新导刊,2013(26):152-153.DOI:10.3969/j.issn.1673-9795.2013.26.120.
[11]杨辅祥,刘云超,段智华.数据清理综述[J].计算机应用研究,2002,19(3):3-5.DOI:10.3969/j.issn.1001-3695.2002.03.002. 
[12]MALLEY B, RAMAZZOTTI D, WU J T Y. Data pre-processing[M]//Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing, 2016:115-141. DOI:10.1007/978-3-319-43742-2_12.
[13]MCCARTHY D J, CAMPBELL K R, LUN A T, et al. Scater: pre-processing, quality control, normalization and visualization of single-cell RNA-seq data in R[J]. Bioinformatics, 2017, 33(8):1179-1186. DOI:10.1093/bioinformatics/btw777.
[14]李镒冲,姜勇,张梅,等.SAS软件在中国慢性病及其危险因素监测数据清理中的应用[J].现代预防医学,2010,37(20):3835-3838.
[15]GOKHALE K M, CHANDAN J S, TOULIS K, et al. Data extraction for epidemiological research (DExtER):A novel tool for automated clinical epidemiology studies[J]. Eur J Epidemiol, 2021, 36(2):165-178. DOI:10.1007/s10654-020-00677-6.
[16]DEMBE A E, PARTRIDGE J S, GEIST L C. Statistical software applications used in health services research: Analysis of published studies in the US[J]. BMC Health Serv Res, 2011, 11:252. DOI:10.1186/1472-6963-11-252.
[17]王秀清,毛勇,常巍,等.基于人才培养目标的SAS统计分析系统应用课程教学效果[J].昆明医科大学学报,2019,40(7):142-145.DOI:10.3969/j.issn.1003-4706.2019.07.028.

基金

 国家自然科学基金面上项目(81872506);四川省卫生健康委员会医学科技项目(21PJ93);川北医学院校级科研发展计划(CBY20-QA-Z06)

PDF(4931 KB)

408

Accesses

0

Citation

Detail

段落导航
相关文章

/