完整的解决方案:一种药品数据采集和存储方法、系统及存储介质技术方案
优采云 发布时间: 2022-10-18 04:08完整的解决方案:一种药品数据采集和存储方法、系统及存储介质技术方案
本发明专利技术提供了一种药品数据采集及存储方法、系统和存储介质。方法包括:获取目标网站的附件文件和标题;从药品标准库中查找与标题匹配的标准数据表,记录为目标标准数据表;判断附件表中的数据是否在目标标准数据表中的对应列,将附件表中的数据保存到数据的对应列中。可以自动从目标网站获取收录药品数据的文件附件和标题,并将标题与需要存储的目标标准数据表进行匹配,并自动确定文件附件表中的数据应存储在目标标准数据表中。的对应栏目实现药品数据的自动采集,以及自动准确存储。和准确的存储。和准确的存储。
下载所有详细的技术数据
【技术实现步骤总结】
一种药品数据采集及存储方法、系统及存储介质
[0001] 本专利技术涉及计算机技术,具体涉及一种药品数据采集及其存储方法、系统和存储介质。
技术介绍
药品数据采集和存储是实现信息共享和资源整合的关键,为药品乃至整个健康领域的大数据分析和数据挖掘提供可能,进一步构建智能分析模型,形成业务分析报告. 基础知识。目前,由于多重实际业务需求,需要对药政、医保、卫健委等大量药品垂直领域网站进行药品数据采集和存储等。药品数据主要存储在这些网站中,需要对网站的附件文件中的药品数据进行采集,并存储药品数据采集 进入药品标准数据库的标准数据表,
[0003] 因为同一种药品可能有多个名称、多个厂家、同一厂家有不同的名称、多个剂型和规格等,所以说明书通常需要采集的网站链接劳动强度大、劳动强度大、效率低、人员劳累时容易出错。因此,迫切需要一种自动化、准确的药品数据采集和存储方法。
技术实现思路
[0004] 本专利技术旨在至少解决现有技术中存在的技术问题,提供一种药品数据采集及存储方法、系统和存储介质。
为了实现本专利技术的上述目的,根据本专利技术的第一方面,本专利技术提供一种药物数据采集及存储方法,包括:获取目标网站 附件文件和标题;从药品标准库中找到与标题匹配的标准数据表,记录为目标标准数据表;确定目标标准数据表附件表中数据对应列,将附件表放入目标标准数据表对应列。数据存储在数据的相应列中。
为了实现本专利技术的上述目的,根据本专利技术的第二方面,本专利技术提供了一种药品数据采集及存储系统,包括:数据采集模块,用于用于获取目标网站的附件和标题;目标标准数据表匹配模块,从药品标准数据库中查找与标题匹配的标准数据表,并将其记录为目标标准数据表。存储模块用于确定表中的数据在目标标准数据表的对应列中,附件表中的数据存储在数据的对应列中。
为了实现本专利技术的上述目的,根据本专利技术的第三方面,本专利技术提供了一种计算机可读存储介质,所述存储介质中存储至少一条指令,至少一条一段程序,代码集或指令集,至少一条指令、至少一条程序、代码集或指令集由处理器加载并执行,以实现如第一方面所述的药物数据目前的专利技术采集和存储方法。
该专利技术的技术原理和有益技术效果:可以自动从target网站获取收录药品数据的文件附件和标题,并根据标题匹配需要存入的target标准数据表,自动确定文件 附表的数据应存储在目标标准数据表的对应列中,实现药品数据的自动采集,以及自动准确存储。
图纸说明
图1为本专利技术一种优选实施例中药品数据采集及存储方法的流程*敏*感*词*;
[0010] 图。图2是专利技术药品数据采集及其存储方法在应用场景中的流程*敏*感*词*。
详细方法
[0011] 下面详细描述本专利技术的实施例,其示例在附图中示出,其中相同或相似的附图标记始终指代相同或相似的元件或具有相同或相似功能的元件。以下结合附图所描述的实施例仅为示例性的,仅用于解释本专利技术,不应理解为对本专利技术的限制。
在对该专利技术的描述中,应当理解术语“垂直”、“水平”、“上”、“下”、“前”、“后”、“左”、“右”、“纵、横、上、下、内、外所表示的或位置关系,均以附图所示的方向或位置关系为基础,仅为方便描述本专利技术而作简化描述,并非表示或暗示所提及的设备或元件必须具有特定的方向,以特定的方向构造和操作,因此不应解释为对专利技术的限制。
[0013] 在对专利技术的描述中,除非另有说明和限制,应注意“已安装”、“已连接”、“已连接”等术语应从广义上理解,例如,可以是机械连接或电气连接,也可以是两个元件之间的内部通信,可以直接连接,也可以通过中间介质间接连接。本领域技术人员可以根据具体情况理解上述术语的具体含义。
本专利技术公开了一种药品数据采集及存储方法,在一个优选实施例中,如图1所示,该方法包括:
[0015] 步骤S1,获取目标网站的附件文件和标题。
[0016] 在实际应用中,通常需要从药政、医疗保险、以及卫生和卫生委员会。因此,一大批药政、医保、卫健委等垂直医药领域网站成为目标网站。目标 网站 页面通常设置有收录药物数据的附件。
[0017] 在本实施例中,为了提高采集的效率,优选但不限于采用爬虫技术定期对目标采集进行数据采集;进一步,为了管理爬虫,实现合理的采集,进行定时调度、手动调度、常用配置(包括失败重试、下载等待时间、下载渲染器选择、ip代理配置)等管理设置,以及查看爬虫的运行日志。进入目标网站后,抓取目标网站网页中的所有附件链接,然后根据附件链接获取对应的附件文件名,通过履带式装载机。
[0018] 本实施例中,设置垂直字段药品采集中的信息管理模块,模块配置目标网站需要车牌的链接入口地址采集,配置链接入口地址所在的网页。XPath 涉及XPath 中涉及的核心字段(如标题、发表时间、列表页中收录的区域等),XPath 是XML 路径语言(XML Path Language),它是一种用于确定位置的语言XML 文档中的某个部分。步骤S1中得到的目标网站的标题为目标网站对应的页面中核心字段的标题。
在本实施例中,为了提高数据采集的效率,避免重复采集,进一步优选地,在执行步骤S1的过程中,解析目标网站的列表页为分析了。链接地址,通过链接地址发起访问请求,提取访问请求头中的指纹信息,将指纹信息放入布隆过滤器进行加权。加权过程为:如果布隆过滤器检测到T个连续的链接地址是重复的,则退出目标网站,T为正整数,优选T为5。
优选但不限于包括请求方法、请求链接和请求正文。优选地,通过密码散列函数SHA
——
1 (Secure Hash Algorithm1, Secure Hash Algorithm 1) 从请求头中提取指纹信息。
在本实施例中,由于附件中的药品数据需要以表格的形式存储在药品标准数据库中,所以为了方便存储,当附件不是EXCEL文件时,附件需要转换成EXCEL文件,例如,当附件为PDF文件时,优选但不限于通过现有的pdfplumber转换器将PDF文件转换成EXCEL文件。得到EXCEL文件后,逐行解析表格数据,将第一行数据设置为表头,每列数据的第一行称为列数据的表头字段,将表数据保存到文件中服务器。
在本实施例中,为了方便药品数据的溯源,优选地,构建截图服务组件Splash,实现对指定网页的截图,在截图过程中,需要检测目标是否网站 网页被渲染,这样在截图的过程中可以保证网页的完整性。如果渲染完成,则对页面进行截图,将页面截图存储并与附件和附件中的数据相关联,并建立关联链接。在查看药品标准库中的数据时,可以通过关联链接找到关联。用于数据可追溯性的屏幕截图。
[0022]
【技术保护点】
【技术特点总结】
1.一种药品数据采集及存储方法,其特征在于,包括:获取目标网站的附件和标题;从药品标准数据库中查找与标题匹配的标准数据表,记录为目标标准数据表;在目标标准数据表中确定附件表中数据的对应列,并将附件表中的数据存储在数据的对应列中。2.根据权利要求1所述的药品数据采集及存储方法,其特征在于,所述确定目标标准数据表中附件表中数据的对应列包括: 获取目标标准数据表的编号文件中的数据条目;当数据条目数不大于预设的条目数阈值时,附件表中每列数据的表头字段与目标标准数据表表头字段的匹配度等于附件文件表中的条目数。为数据选择相应的列;当数据条目数大于预设的条目数阈值时,根据附件表中数据与数据的匹配程度,为附件表中的数据选择对应的列在目标标准数据表中。3.根据权利要求2所述的药品数据采集及存储方法,其特征在于,当数据条目数不大于预设的条目数阈值时:计算附件表中每列数据的表头字段与目标标准数据表中所有表头字段的相似度。在目标标准数据表中,选择标题字段中相似度最大的列作为附件表中数据的对应列。4.根据权利要求2或3所述的药品数据采集及存储方法,其特征在于,当数据条目的数量大于预设的条目数量阈值时:提取其中每一列数据的特征。附件向量表,记为第一特征向量;对附件表中所有列数据的第一个特征向量进行聚类分析,得到至少一个聚类类别标签;映射关系,将与聚类类别标签映射的目标标准数据表的表头字段列作为聚类类别标签下数据的对应列。5.根据权利要求4的药物数据采集
【专利技术性质】
技术研发人员:龚顺军、康中举、唐海明、王春、程琳、朱丹、王晓勇、
申请人(专利权)持有人:重庆医药交易*敏*感*词*,
类型:发明
国家省市:
下载所有详细的技术数据 我是该专利的所有者
整套解决方案:AscendCL应用使用Profiling工具进行性能调优
昇腾CL应用程序使用分析工具进行性能调优
案例开发目标
此图片、文本和视频案例实现了昇腾CL 示例应用程序的编译和执行,并使用分析工具通过 MindStudio 详细展示了昇腾 CL 应用程序的性能调优,包括 MindStudio 部署和安装、昇腾 CL 项目创建、分析工具配置、性能数据采集的性能数据分析...
*敏*感*词*内容聚焦技术链接
此图形和视频案例研究重点介绍如何通过 MindStudio 使用分析工具分析和显示昇腾 CL 应用程序的性能调优。
重现昇腾CL示例应用程序:ATC 工具导出 om 模型、数据预处理、编译和执行昇腾CL 示例应用程序。
分析工具配置:MindStudio 中的探查器工具简介、相关工具的安装以及用户权限的配置。
性能分析采集:P罗菲勒工具参数的介绍和配置,分析采集详细过程。
概要分析性能数据分析:时间轴视图分析、分析摘要分析、基线比较分析、事件视图分析、统计分析和 AI 核心指标分析。
详情请前往华为云论坛:华为云Forum_Cloud计算Forum_Developer Forum_Technical论坛-华为云