解决方案:一种基于医疗的数据分析系统的*敏*感*词*法
优采云 发布时间: 2022-10-30 05:18解决方案:一种基于医疗的数据分析系统的*敏*感*词*法
1、本发明涉及数据处理技术领域,具体涉及一种基于医学的数据分析系统。
背景技术:
2、近年来,国内医疗信息化投资规模也呈现出不断扩大的趋势。随着医疗信息化的不断发展,医疗临床数据不断积累,数量庞大,种类繁多,但大部分临床数据仅服务于诊疗过程,在科研、教学和循证等方面并没有发挥更大的作用。药物。大多数信息系统的独立构建、缺乏集成、元数据不一致、标准不一致,给数据复用带来了诸多困难。因此,需要一个数据分析系统对临床数据进行处理,如采集、存储、分布式计算等,对数据信息进行深度挖掘。
3、目前,现有技术中的数据分析系统主要包括sas系统(统计分析系统)和spss(统计产品服务解决方案)软件等软件。sas系统虽然分析语法完整,便于*敏*感*词*复杂操作,但采集数据需要手动操作,包括手动直接输入、从外部原创数据文件导入、从其他数据文件导入软件; 虽然spss软件安装方便,有完善的点击界面,但采集数据还是需要手动导入。
4.上述数据分析系统在采集数据时需要人工操作,降低了数据处理分析的效率,不满足科研人员对临床数据的分析处理。
技术实施要素:
5、为此,本发明提供了一种基于医学的数据分析系统,解决了数据处理分析效率低的问题。
6、为实现上述目的,本发明提供一种基于医学的数据分析系统,包括:
7、设置模块用于预设至少一种映射关系,data采集时间间隔和data采集周期,采集周期包括若干采集时间间隔。
8、采集模块用于根据数据采集时间间隔和数据采集周期根据数据采集中的数据转换数据源中的数据采集 期间。将符合映射关系采集的数据信息发送给数据分析系统,形成待处理的数据集。
9.进一步地,所述采集模块包括提取单元和识别单元,所述提取单元为了提取数据信息,在所述识别单元中设置有映射矩阵,所述映射矩阵的输入为该数据信息对应。当提取单元提取的对应数据信息不为空时,将提取单元中的数据信息视为符合映射矩阵的映射关系的数据信息。
10、进一步地,识别单元中的映射矩阵具有若干映射函数,根据数据信息中的关键字信息,得到与数据信息对应的目标字段信息。在映射函数中,选择与目标域信息匹配的目标映射函数作为主函数,目标域信息是映射函数的函数因子,主函数不唯一,数据信息按照到主函数采集的关系。
11、进一步地,当关键字信息为1时,根据第一关键字信息a获取与数据信息对应的第一目标域信息,并在映射函数中选择第一目标域信息a。匹配目标映射函数作为主函数,
12.如果映射函数中的函数因子收录第一目标域信息a,那么映射函数可以作为主函数,
13、如果映射函数中的函数因子不收录第一目标域信息a,则映射函数不能作为主函数。
14、进一步地,当关键词信息为二时,根据第二关键词信息b和第三关键词信息c,得到数据信息对应的第二目标字段信息b和第三目标字段信息c,在映射函数中,a选择匹配第二目标域信息b和第三目标域信息c的目标映射函数作为主函数,
15.如果映射函数中的函数因子同时收录第二个目标域信息b和第三个目标域信息c,那么映射函数可以作为主函数,
16、如果映射函数中的函数因子不同时收录第二目标域信息b和第三目标域信息c,则映射函数不能作为主函数。
17、进一步地,本发明提供的一种基于医学的数据分析系统,还包括:
18、处理模块,用于将待处理的数据集转换成目标数据集;
19、分析模块,用于对目标数据集进行分析,得到分析结果;
20、显示模块,用于显示分析结果。
21、进一步的,处理模块在对采集的待处理数据进行变换时,定义一个特征值,根据该特征值对采集的待处理数据进行7个数据处理处理服务包。转换数据以形成目标数据集。
22. 此外,七大数据处理服务包包括:数据过滤、值替换、类型转换、规范化、离散化和自定义字段。
23、进一步,分析模块在分析目标数据集时,通过描述性分析和机器学习分析,呈现目标数据集的特征值分布图并进行数据挖掘计算,描述性分析包括:柱形图、线形图、气泡图、散点图、平行图、直方图、箱形图和排列图,
24、机器学习分析的方法包括:分类分析、回归分析、聚类分析、关联规则、时间序列和关系网络、线性回归算法和回归树算法。
25、进一步地,显示模块在显示分析结果时,通过自定义布局和仪表盘呈现,内置布局包括字段型、工字型、左右型、顶部-底部类型。
26、与现有技术相比,本发明的有益效果在于:设置模块中预设了至少一个映射关系,数据采集时间间隔和数据采集周期,采集 模块。在采集数据的采集周期内,根据数据采集时间间隔和求和数据采集周期,数据源中符合条件的数据信息映射关系采集 在数据分析系统中,处理模块转换待处理的数据集,分析模块分析目标数据集,显示模块显示分析结果。通过对来自采集的待处理数据集进行处理和变换,得到目标数据集,
27、具体地,采集模块提取单元在从数据源提取数据时,确定该数据信息对应的地址信息,如果提取单元提取出对应的数据信息不为空,则实现数据的自动提取提高了数据采集的效率。
28、具体地,采集模块识别单元具有映射矩阵所设置的若干映射函数,根据数据信息中的关键字信息,得到与数据信息对应的目标字段信息,确定目标字段信息后,从映射函数中选择与目标字段信息相匹配的目标映射函数作为主函数,目标字段信息为映射函数的函数因子,数据信息根据映射函数的关系进行main函数。采集,改进数据
采集准确度。
29、具体地,当处理模块从采集转换待处理数据时,定义一个特征值,并根据特征值通过数据过滤、值替换、类型转换、归一化、标准化、离散化。将采集中的待处理数据转化为目标数据集,实现采集中的待处理数据转换为机器学习算法所需的目标数据集,提高数据分析的效率。
30. 特别是分析模块在分析目标数据集时,通过描述性分析得到目标数据集的特征值和收录13个处理服务包的机器学习的图形分布图,实现了对目标数据集的分析目标数据集。分析得到目标数据集的分析结果,通过可视化操作页面降低系统的学习门槛。
31、特别是在展示模块显示分析结果时,通过自定义布局排版和内置布局方式,得到数据分析结果的可视化布局,实现了数据分析结果的可视化表达,提高了数据分析结果的可视化布局。数据处理效率。,满足了研究者对数据分析可视化表达的要求。
图纸说明
32. 图。附图说明图1是本发明提供的基于医学的数据分析系统的结构*敏*感*词*;
33. 图。图2为本发明提供的基于医学的数据分析系统的应用流程图;
详细方法
34、为使本发明的目的和优点更加清楚,下面结合实施例对本发明作进一步的说明;应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明。
35.下面参照附图描述本发明的优选实施例。本领域技术人员应当理解,这些实施例仅用于解释本发明的技术原理,并不用于限制本发明的保护范围。
36. 需要注意的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等表示方向或位置。关系图中所示的方向或位置关系仅是为了描述的方便,并不表示或暗示设备或元件必须具有特定的方向,以特定的方向构造和操作,因此不应解释为限制本发明。
37、此外,需要说明的是,在本发明的描述中,除非另有明确规定和限制,否则“安装”、“连接”和“连接”等术语应从广义上理解,例如,可以是固定连接,也可以是可拆卸连接,也可以是整体连接;可以是机械连接,也可以是电气连接;它可以是直接连接,也可以是通过中间介质的间接连接,也可以是两个组件之间的内部通信。对于本领域的技术人员来说,本发明中上述术语的具体含义可以根据具体情况来理解。
38、本发明提供一种基于医学的数据分析系统,包括: 设置模块,用于预设至少一个映射关系、数据采集时间间隔和数据采集周期、采集时期。采集 循环收录几个 采集 时间间隔;
39、采集模块用于根据data采集时间间隔和data采集周期根据数据采集中的数据转换数据源中的数据采集 期间。将符合映射关系采集的数据信息发送给数据分析系统,形成待处理的数据集。
40、具体地,本发明实施例通过对采集得到的待处理数据集进行处理变换得到目标数据集,对目标数据集进行描述性分析和机器学习分析,并将分析结果展示出来结果。实现了数据的定时、自动采集数据处理,提高了数据处理和分析的效率。
41. 请参考图 如图1所示,本发明另一实施例的基于医学的数据分析系统包括:设置模块
100、为了预先设置至少一个映射关系,数据采集时间间隔和数据采集周期,采集周期包括若干采集时间间隔;
42、采集模块200用于采集周期内的采集数据,根据数据采集时间间隔和数据采集周期进行转换将数据导入数据源。将符合映射关系采集的数据信息发送给数据分析系统,形成待处理的数据集;
43、处理模块300,用于将待处理的数据集变换成目标数据集;
44、分析模块400,用于分析目标数据集,得到分析结果;
45、显示模块500,用于显示分析结果。
46、具体而言,本发明实施例中,设置模块中预设有至少一种映射关系,数据采集时间间隔和数据采集周期,然后是采集 模块设置在采集采集数据周期内,根据数据采集时间间隔和数据采集周期,得到数据信息采集 将数据源中符合映射关系的数据发送给数据分析系统,形成待处理数据集,处理模块将待处理数据集转化为目标数据集,分析模块分析目标数据集,得到分析结果,显示模块显示分析结果。通过设置映射关系,data采集时间间隔和data采集 周期,根据映射关系,数据采集时间区间和数据采集周期,匹配映射关系的数据信息采集传输到数据分析系统,消除需要手动导入数据,降低数据采集的错误率,提高数据处理分析效率。通过将待处理的数据集转化为目标数据集,对目标数据集进行分析,得到分析结果,并显示分析结果,实现数据的处理、分析和图形化展示,提高得到改善。数据处理的效率。映射关系转移到数据分析系统,省去了人工导入数据,降低了数据的错误率采集,提高了数据处理和分析的效率。通过将待处理的数据集转化为目标数据集,对目标数据集进行分析,得到分析结果,并显示分析结果,实现数据的处理、分析和图形化展示,提高得到改善。数据处理的效率。映射关系转移到数据分析系统,省去了人工导入数据,降低了数据的错误率采集,提高了数据处理和分析的效率。通过将待处理的数据集转化为目标数据集,对目标数据集进行分析,得到分析结果,并显示分析结果,实现数据的处理、分析和图形化展示,提高得到改善。数据处理的效率。对目标数据集进行分析,得到分析结果,并显示分析结果,实现数据的处理、分析和图形显示,提高改进。数据处理的效率。对目标数据集进行分析,得到分析结果,并显示分析结果,实现数据的处理、分析和图形显示,提高改进。数据处理的效率。
47、本系统可以手动从医院临床系统导出数据文件,经过execl处理后导入sas、spss、stata等分析软件进行数据计算,再通过第三方行为识别系统,如finebi 、tempobi、sugarbi、quick bi等大数据分析工具呈现数据,或使用execl的图形呈现功能展示数据、图文结果。
48、具体地,采集模块包括提取单元和识别单元,提取单元用于提取数据信息,识别单元中提供映射矩阵,映射矩阵的输入是数据信息。对于对应的地址信息,当提取单元提取出对应的数据信息不为空时,根据映射矩阵,将提取单元中的数据信息视为符合映射关系的数据信息。
49. 具体地,识别单元中的映射矩阵具有若干映射函数,根据数据信息中的关键字信息,得到数据信息对应的目标字段信息,确定目标字段信息后,从映射函数中选取与目标域信息匹配的映射函数作为主函数,目标域信息是映射函数的函数因子,主函数不唯一,根据数据信息之间的关系进行主要功能。采集。
50、具体地,当关键字信息为1时,根据第一关键字信息a获取数据信息对应的第一目标字段信息a,在映射函数中选择第一目标字段对应的第一目标字段。信息a匹配的目标映射函数作为主函数。
51、具体来说,如果映射函数中的函数因子包括第一目标域信息a,则可以将该映射函数作为主函数,例如m1=f(a), m2=f(a, b), m3=f (a, b, c) 等函数。
52、如果映射函数中的函数因子不收录第一目标域信息a,则映射函数不能作为主函数,例如m4=f(b), m5=f(b,c), m6 =f(b, c, d) 等函数。
53、具体地,当关键词信息为二时,根据第二关键词信息b和第三关键词信息c,获取与数据信息对应的第二目标字段信息b和第三目标字段信息c。, 在映射函数中
选择与第二目标域信息b和第三目标域信息c匹配的目标映射函数作为主函数。
54. 具体来说,如果映射函数中的函数因子同时收录第二目标域信息b和第三目标域信息c,则可以将映射函数作为主函数,例如m3=f(a,b,c ), m5=f(b, c), m6=f(b, c, d), m7=f(b, c, e)等函数。
55、如果映射函数中的函数因子不同时收录第二目标域信息b和第三目标域信息c,则映射函数不能作为主函数,例如m1=f(a ), m2=f(a, b ), m8=f(e, f) 等函数。
56. 具体而言,数据来源包括医院信息系统his(医院信息系统)、临床信息系统cis(临床信息系统)、实验室信息管理系统lis(实验室信息管理系统)和计算机化病历系统emr(电子病历系统) )。记录)和其他数据库。
57、具体来说,在本发明实施例中,在采集模块采集采集周期内的数据中,根据数据采集时间间隔和求和数据< 采集period 当数据源中符合映射关系的数据信息采集发送到数据分析系统形成待处理的数据集时,映射关系,data采集时间间隔和数据采集周期根据映射关系,数据采集时间间隔和数据采集周期,数据源中符合映射关系的数据信息采集转入数据分析系统,实现无需人工导入。数据,降低数据的错误率采集,
58、具体地,当设置模块预设有至少一个映射关系、数据采集时间间隔和数据采集周期时,采集周期包括多个采集周期。采集 时间间隔,
59、映射关系包括单表映射、SQL映射、elasticsearch映射、关系数据库映射和jdbc连接数据源。
60、时间间隔的时间单位包括毫秒(ms)、秒(s)和分钟(min)。系统会对数据源进行采集数据处理和分析。
61. 采集 循环的时间单位包括分钟(min)、小时(h)和天(d)。每隔一天,数据分析系统会将这一天收到的数据采集作为一个单独的数据集进行处理、分析和存储。
62、具体地,本发明实施例中,设置模块预先设置至少一种映射关系,数据采集时间间隔和数据采集周期,实现数据的自动定时采集 参数设置简化了系统流程,提高了系统的工作效率。
63、具体地,处理模块在从采集转换待处理数据集时,定义一个特征值,根据该特征值,使用7个数据处理服务包将数据集从采集 to 将要处理的数据集进行变换,形成目标数据集。
64. 具体来说,特征值包括年龄、身高、体重等临床数据信息。
65. 具体来说,7个数据处理服务包包括数据过滤、过滤和过滤特征值数据,并在数据过滤基本信息界面,定义处理服务名称,如“年龄大于50”,定义数据状态匹配当前过滤条件的,如“启用”,在过滤条件界面,定义数据集字段,如“年龄”,定义条件字段,如“大于”,定义值字段,如“50”。然后可以过滤掉 50 岁以上患者的相关临床数据。
66. 具体来说,在数据过滤基础信息界面,可以根据研究目标,添加过滤条件,定义
管理服务名称,如“权重大于50”,定义满足当前过滤条件的数据状态,如“启用”,在过滤条件界面,定义数据集字段,如“权重”,定义条件字段,例如“大于”,定义一个值字段,例如“50”,过滤掉体重大于50岁患者的相关临床数据。
67. 具体来说,在数据过滤基本信息界面,可以根据研究目标删除过滤条件,在过滤条件界面,
“×”
删除此过滤器。
68. 具体来说,7个数据处理服务包包括值替换,特征值数据替换,值替换原创字段接口中定义字段名,如“marriage”,定义字段类型,如“ boolean.",定义要处理的值,如“定值”,定义值替换新字段界面中的字段名,如“结婚与否”,定义处理后的值,如“定值”,您可以将原来的字段“结婚与否”替换为新的字段“是否结婚”。
69. 具体来说,7个数据处理服务包包括类型转换,转换特征值数据类型,在类型转换基本信息界面定义处理服务名称,如“获取年份”,在类型转换原创字段中定义字段接口中的名称,如“出生日期”,定义字段类型,如“日期”,定义类型转换新字段接口中的字段名称,如“年”,定义处理方式,如“取年”,可以转换临床数据。将患者的出生日期替换为出生年份,以满足特殊数据挖掘算法的要求。
70. 具体来说,7个数据处理服务包包括归一化,对特征值数据进行归一化处理,在归一化原创字段接口中定义字段名称,如“年龄”,定义字段类型。,如“整数”,并在归一化新字段界面中定义处理方法,如“最大-最小归一化”。
71. 具体而言,7个数据处理服务包包括标准化、特征值数据标准化、字段名称定义,如标准化原创字段接口中的“年龄”、字段类型定义、标准化新字段处理定义界面。方法。
72. 具体来说,7个数据处理服务包包括discretization,即对特征值数据进行离散化处理,定义字段名,如离散化原创字段接口中的“age”,定义字段类型,以及新字段接口定义处理方法。
73. 具体来说,7个数据处理服务包包括自定义字段、在引用字段界面定义字段名称、在引用函数界面引用函数、在显示区显示最终表达式、在字段界面查看字段详情。
74. 具体来说,字段详细信息包括属性和描述;属性包括标识、名称、大小、字段类型和描述。
75、具体地,在本发明实施例中,处理模块从采集转换待处理数据时,定义一个特征值,并根据该特征值,进行数据过滤、值替换、类型转换, 并进行归一化。统一化、标准化、离散化和自定义字段将采集中待处理的数据转化为目标数据集,实现将采集中待处理数据转化为机器学习算法的需求。目标数据集提高了数据分析的效率。
76、具体来说,分析模块在分析目标数据集时,通过描述性分析和机器学习分析,呈现目标数据集特征值的分布和趋势,进行数据挖掘计算。
77.具体来说,描述性分析是利用图形组件,将待分析的目标数据集的特征值的图形分布图呈现出来,并在描述性分析界面中定义列(x轴、类别轴)并拖入字段,如“姓名”,定义行(y轴,数值轴)拖入字段,如“年龄”,定义统计方法,如“平均”,可以图形化显示。
78、具体而言,图形分布图包括条形图、折线图、气泡图、散点图、平行图、直方图、箱线图、排列图,通过特征值图形化呈现的目标数据集。,目标数据集特征值的数学规律逐渐明晰,为后续数据挖掘提供依据和线索。
79. 具体来说,存储图形配置文件。
80、具体来说,机器学习分析通过定义分析类型和算法对目标数据集进行挖掘计算,得到目标数据集的挖掘结果,并在创建数据挖掘界面中定义分析模型的名称,如如“线性回归算法”,定义分析模型描述,定义分析模型类型,如“回归分析”,定义算法,如“线性回归”。
81、具体分析模型类型包括分类分析、回归分析、聚类分析、关联规则、时间序列、关系网络;
82. 特别是,算法包括线性回归和回归树。
83. 具体在字段设置界面定义一个字段,在输入字段界面选择一个字段,如“[01][guiyi]/[Normalization]”,可以在里面查看基本信息、参数和高级参数模型信息接口。
84、具体包括模型名称、模型算法、模型生成时间等基本信息;参数包括分析字段、输入字段和采样率。
85. 具体来说,高级参数包括场选择模式、是否自动忽略共线场和岭参数。
86. 具体来说,存储目标数据集的挖掘结果。
87. 具体地,在本发明实施例中,分析模块在分析目标数据集时,通过描述性分析得到收录13个处理服务包的目标数据集和机器学习的特征值的图形分布图,从而实现在对目标数据集进行分析,得到目标数据集的分析结果后,通过可视化的操作页面,降低系统的学习门槛。
88、具体来说,在显示模块显示分析结果时,通过自定义排版和仪表盘呈现,以图文形式存储显示仪表盘界面。
89、具体而言,自定义排版对数据进行自定义排版和内置排版,自定义排版根据分析结果自定义排版方式,在模型应用界面定义分析模型,使用它在应用程序中。参数接口定义参数。.
90. 具体来说,内置布局包括字段型、工字型、左右型、上下型。
91. 具体而言,仪表盘呈现将定义好的仪表盘界面呈现在不同的组中保存,从而实现数据分析结果的可视化表达。
92、具体地,在本发明实施例中,在展示模块显示分析结果时,通过自定义布局排版和内置布局排版,得到数据分析结果的可视化布局,将数据的可视化表达实现数据分析结果。,提高了数据处理的效率,满足了研究人员对数据分析可视化表达的要求。
93、具体而言,如图2所示,本发明实施例提供的基于医学的数据分析系统的应用流程包括:
94、定义和选择数据源;定义映射关系,根据映射关系执行数据采集,判断采集要处理的待处理数据是否为增量数据,如果采集收到的待处理数据是处理后的数据是增量数据,数据处理系统会创建一个数据集并将数据更新到数据集中。如果采集收到的待处理数据不是增量数据,数据处理系统会同步数据集,更新数据集中的数据。将数据提取到数据集中;根据实际处理需求定义特征值,对特征值进行数据过滤、值替换、类型转换、归一化、标准化、离散化、自定义字段处理和转换;变换结果以图形方式定义并存储,根据实际处理需求在分类分析、回归分析、聚类分析、关联规则、时间序列、关系网络中定义机器学习算法,并存储计算结果;进行排版,排版在dashboard界面中输出。
95. 至此,本发明的技术方案已经结合附图所示的优选实施例进行了描述,然而,现有技术
本领域技术人员可以很容易地理解,本发明的保护范围显然不限于这些具体实施例。在不脱离本发明的原理的前提下,本领域的技术人员可以对相关技术特征进行等同的更改或替换,这些更改或替换后的技术方案均落入本发明的保护范围之内。
96、以上所述仅为本发明的较佳实施例而已,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种修改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应收录在本发明的保护范围之内。
解决方案:duxcms网站内容管理系统与易得网站数据采集系统下载评论软件详情对比
轻松获取网站数据采集系统通用版,通过编写或下载规则,对选中的网站执行数据采集的系统可以采集最多网站 数据,并保存图像文件。是建站必备的数据采集工具。而且采集器是开源代码,带有中文注释,方便修改和学习。
采集 系统具有以下特点:
主流语言——php+mysql编写,安装对应服务器即可。
完全开源——开源代码,代码有中文注释,方便管理和学习交流。
规则自定义——采集规则可以自定义,采集大部分网站内容。
数据修改 - 自定义修改规则以优化数据内容。
数据存储——数组形式,将序列化的数据保存到文件或数据库中,方便上传和调用。
图像读取 - 您可以读取内容的图像并将其保存在本地。
Encoding Control - 转换编码,可以将gb2312、gbk等编码保存为utf-8。
标签清洗 - 您可以自定义保留的标签并删除不必要的标签。
安全功能——访问由密码控制,远程访问也是安全的。
操作简单——一键读取操作,可以按规则组读取,也可以指定一个规则id读取,单个id读取。
规则分组——通过规则分组读取数据,及时更新采集数据。
自定义读取——根据自定义规则id读取数据,更有效更及时。
JS 读取 - 使用 js 控制读取时间,减少服务器负载。
超时控制 - 您可以设置页面执行时间以减少超时错误。
多重阅读 - 您可以为网页设置多重阅读控制,可以更有效地读取数据。
错误控制——如果有很多错误,可以停止阅读,减少服务器资源使用。
负载控制 - 将数据保存在多个文件夹中,可以有效解决多个文件下的服务器负载。
数据修改——不仅可以浏览数据,还可以修改主题数据。
规则分析 - 您可以与其他人分享您的规则,以便更多人可以使用它们。
规则下载 - 下载和共享规则以快速获取您需要的内容。