操作方法:一种药品数据采集和存储方法、系统及存储介质与流程
优采云 发布时间: 2022-10-18 14:25操作方法:一种药品数据采集和存储方法、系统及存储介质与流程
1、本发明涉及计算机技术,具体涉及一种药品数据采集及其存储方法、系统和存储介质。
背景技术:
2、药品数据采集和存储是信息共享和资源整合的关键,为医药领域乃至整个健康领域的大数据分析和数据挖掘提供了可能,是进一步构建智能化的基础分析模型并形成业务分析报告。根据。目前,由于多重实际业务需求,需要对药政、医保、卫健委等大量药品垂直领域网站进行药品数据采集和存储等。药品数据主要存储在这些网站中,需要对网站的附件文件中的药品数据进行采集,并存储药品数据采集 进入药品标准数据库的标准数据表,
3、由于同一种药品可能有多个名称、多个厂家、同一厂家的不同名称、多个剂型等,人工识别通常需要采集的网站链接和中的链接链接。处理附件中的药品数据是劳动密集型、劳动密集型、效率低下的。当人员疲劳时,容易发生错误。因此,迫切需要一种自动化、准确的药品数据采集和存储方法。
技术实施要素:
4、本发明旨在至少解决现有技术中存在的技术问题,提供一种药品数据采集及存储方法、系统和存储介质。
5、为实现本发明的上述目的,根据本发明的第一方面,本发明提供一种药品数据采集及存储方法,包括:获取附件文件和目标的标题 网站 ; 从药品标准库中找到与标题匹配的标准数据表,记录为目标标准数据表;在目标标准数据表中确定附件表中数据的对应列,将附件表中的数据存入数据对应列中。
6、为实现本发明的上述目的,根据本发明的第二方面,本发明提供一种药品数据采集及存储系统,包括:数据采集模块,用于采集一个目标网站 附件文件和标题;目标标准数据表匹配模块,从药品标准数据库中找到与标题匹配的标准数据表,记录为目标标准数据表;存储模块,用于确定附件表中的数据在目标标准数据表的对应列中,将附件表中的数据保存到数据的对应列中。
7.为了实现本发明的上述目的,根据本发明的第三方面,本发明提供一种计算机可读存储介质,其存储至少一个指令、至少一个程序、一个代码集或指令处理器加载并执行至少一条指令、至少一个程序、代码集或指令集,以实现根据第一条的药物数据采集和存储方法本发明的一个方面。
8、本发明的技术原理及有益技术效果:可以自动从目标网站中获取收录药品数据的文件附件和标题,并将标题与需要存储的目标标准数据表匹配,并自动确定文件附件。表的数据应存储在目标标准数据表的对应列中,实现药品数据的自动采集,以及自动准确存储。
图纸说明
9.图1为本发明较佳实施例的药品数据采集及存储方法的流程*敏*感*词*;
10. 图。图2为本发明药物数据采集及存储方法的应用场景的流程*敏*感*词*。
详细方法
11.下面详细描述本发明的实施例,附图中示出了实施例的示例,其中相同或相似的附图标记始终指代相同或相似的元件或具有相同或相似功能的元件。下面结合附图所描述的实施例仅为示例性的,仅用于解释本发明,不应理解为对本发明的限制。
12. 在本发明的描述中,应当理解术语“纵向”、“水平”、“上”、“下”、“前”、“后”、“左”、“右”、“垂直“”、“水平”、“顶”、“底”、“内”、“外”等表示的方向或位置关系以附图所示的方向或位置关系为依据,仅为方便起见描述本发明和简化描述并不意在表明或暗示所提及的装置或元件必须具有特定的方向,以特定的方向构造和操作,因此不应被解释为限制本发明。
13、在本发明的描述中,除非另有说明和限制,应注意“安装”、“连接”和“连接”等术语应从广义上理解,例如可以是机械的。连接或电气连接,或者是两个元件之间的内部通信,可以直接连接,也可以通过中间介质间接连接。对于本领域普通技术人员来说,上述术语的具体含义可以根据具体情况来理解。
14、本发明公开了一种药品数据采集及存储方法。在一个优选实施例中,如图1所示。1、该方法包括:
15、步骤s1,获取目标网站的附件文件和标题。
16、在实际应用中,通常需要从药政、医保、医药等大量药品垂直领域获取药品价格、药品采购政策、药品法律法规、药品行业等药品信息数据。卫生和健康委员会网站。因此,一大批药政、医保、卫健委等垂直医药领域网站成为目标网站。目标 网站 页面通常设置有收录药物数据的附件。
17、本实施例中,为了提高采集的效率,优选但不限于使用爬虫技术定期对目标网站执行数据采集;进一步,为了管理爬虫,实现Reasonable采集,管理定时调度、手动调度、常用配置等设置(包括失败重试次数、下载等待时间、下载渲染器选择、ip代理配置) ,并运行日志查看。进入目标网站后,抓取目标网站网页中的所有附件链接,然后根据附件链接获取对应的附件文件名,通过履带式装载机。
18、在本实施例中,设置了药品垂直领域的信息管理模块采集。本模块配置目标网站的链接入口地址,需要采集部分,同时配置链接入口地址所在的网页。核心感兴趣字段的xpath(如标题、发表时间、列表页收录的区域等),xpath是xml路径语言(xml path language),是一种用来确定位置的语言xml 文档的某个部分。步骤s1中得到的目标网站的标题是目标网站对应页面中核心字段的标题。
19、在本实施例中,为了提高数据采集的效率,避免采集的重复,进一步优选的是,在执行步骤s1的过程中,目标 网站 被解析。地址,通过链接地址发起访问请求,提取访问请求头中的指纹信息,将指纹信息放入布隆过滤器进行加权。加权过程为:如果布隆过滤器检测到t个连续的链接地址重复,则退出目标网站,t为正整数,优选t为5。
优选但不限于包括请求方法、请求链接和请求正文。优选地,通过密码散列函数sha-1(安全散列算法1,安全散列算法1)从请求头中提取指纹信息。
20、在本实施例中,由于附件中的药品数据需要以表格的形式存储在药品标准数据库中,为了方便存储,当附件不是excel文件时,附件需要待转换为excel文件,例如当附件为pdf文件时,优选但不限于通过现有的pdfplumber转换器将pdf文件转换为excel文件。得到excel文件后,逐行解析表格数据,将第一行数据设置为表头,每列数据的第一行称为列数据的表头字段,将表数据保存到文件中服务器。
21、在本实施例中,为了方便药品数据的追溯,优选地,构建截图服务组件splash,实现对指定网页的截图。截屏时需要检测目标网站网页是否已经渲染,这样可以保证截屏时网页。如果渲染完成,则对页面进行截图,将页面截图存储并与附件和附件中的数据相关联,并建立关联链接。在查看药品标准库中的数据时,可以通过关联链接截图找到关联链接,进行数据溯源。
22、在步骤s2中,从药品标准数据库中查找与标题匹配的标准数据表,并记录为目标标准数据表。
23、本实施例中,药品标准数据库中,每个标准数据表对应一个标题类别,标题类别包括但不限于药品价格、药品采购政策、药品法律法规、药品行业类别等。类别,获取目标网站的附件文件后,附件文件中的表格数据需要存放在与标题匹配的标准数据表中。标准数据表的第一行作为表头,每列数据的第一行作为列数据的表头字段。头部字段一般为中文字段备注,如药品名称、药品规格、药品厂家、药品厂家价格、药品适应性等。
24、本实施例中,为了实现标准数据表的自动准确匹配,优选地,在步骤s2中,从药品标准数据库中查找与标题匹配的标准数据表,包括:
25、使用ernie预训练模型得到标题的句子向量,将句子向量输入到循环神经网络lstm(long short-term memory network,长短期记忆)模型中,得到标题的上下文信息标题,并将标题的上下文信息输入到attention机制模块获取关键词信息,将关键词信息输入预训练的标题分类模型得到标题分类结果,得到根据预先建立的标准数据表与题名分类结果数据表的对应关系,匹配题名的标准。
26、本实施例中,ernie预训练模型、循环神经网络lstm模型、注意力机制模块和分类模型是预先使用数据集联合训练的。数据集的构建过程如下:从目标网站采集近两年以上的标题数据,将采集的数据与标注的数据进行匹配与数据中的标题分类标签,设置分类类别为Other没有匹配的数据。然后按照训练集:验证集:测试集=9:1:1的方式分配数据集。使用训练集训练上述深度学习模型,验证集进行测试,测试集进行测试。学习率设置为 0.03,权重衰减设置为 0.01。ernie 预训练模型中的超参数,循环神经网络lstm模型、注意力机制模块、分类模型优选但不限于adamw优化器。分类模型优选但不限于多类softmax分类器。
27、同时开发浏览器插件,使标题数据在浏览器中以不同颜色显示。具体如下:从网页列表页中提取网页链接,将网页链接与数据库中已为采集的网页链接进行匹配。如果匹配,修改链接对应标题的css,为不同类型显示不同颜色。
28、步骤s3,确定目标标准数据表中附件表中数据对应列,放入附件
表中的数据存储在数据的对应列中。
29、在一个优选实施例中,为了得到更准确的对应列,将目标标准数据表中的数据存入对应列并与对应列数据匹配后,没有区别,也属于对应的列头字段, 优选地,在步骤s3中,确定目标标准数据表中附件表中数据的对应列包括: 获取目标标准数据表中的数据条目数;当数据条目数不大于预设的条目数阈值时,根据附件表中每列数据的头域与目标标准数据表头域的匹配度,附件表的数据选择对应的列;当数据条目数大于预设的条目数阈值时,根据附件表中数据与目标标准数据表中数据的匹配程度,为附件文件的表格。
30、在本实施例中,当目标标准数据表中的数据条目数较少或为零时,无法通过两个表的数据匹配得到对应的列,或者得到的对应列不准确。通过匹配附件表和目标标准数据表的表头字段得到精确对应的列。但是,对于头部字段匹配度较低但列数据本身匹配度较高的药品数据存在存储遗漏。有时需要手动添加,非常不方便。因此,随着目标标准数据表中存储的数据的增加,可以通过两个表之间数据本身的匹配度来获得对应的列,而无需人工参与。可以更准确的获取对应的列,自动抓取和存储更多的数据。, 避免遗漏。
31、在一个优选实施例中,当数据条目的数量不大于预设的条目数量阈值时:计算附件表格中每一列数据的头域与目标中所有头域的相似度标准数据表,选择目标标准数据表中标题字段相似度最大的列作为附件表中数据的对应列。优选地,相似度是余弦相似度。将需要计算的两个头域分别用向量表示,计算两个向量的余弦相似度。余弦相似度值越高,两者越相似。
32、在一个优选实施例中,当数据条目的数量大于预设的条目数量阈值时,具体包括:
33、步骤a,提取附件表格中每一列数据的特征向量,记为第一特征向量;
34、步骤b,对附件表中所有列数据的第一特征向量进行聚类分析,得到至少一个聚类类别标记;
35、步骤c,根据聚类类别标签与目标标准数据表头域的映射关系,将目标标准数据表的头域与聚类类别标签映射的列作为聚类类别标签。对应的列。
36、在本实施例中,为了使映射关系更加准确和全面,同时得到目标标准数据表的整表的映射关系,进一步优选的是,聚类类别标记和表头字段为目标标准数据表建立映射关系的过程如下:
37、步骤c1,建立目标标准数据表中的每一列数据与该数据列的表头字段的关联关系;
38、步骤c2,提取目标标准数据表中每一列数据的特征向量,记为第二特征向量;
39、步骤c3,对所有第二特征向量进行聚类分析,得到至少一个聚类类别标签;聚类分析优选但不限于选择无监督的dbscan聚类算法;
40、步骤c4,获取与每个聚类类别标签下的数据关联的目标标准数据表的头域,并建立聚类类别标签与目标标准数据表的头域的映射关系。
41、在本实施例中,为了提高处理速度,进一步优选的是,提取附件表中的列数据或目标标准数据表中列数据的特征向量的过程包括:去重列数据,再处理后的列数据转换成句子向量。为了减少处理时间,优选但不限于通过预训练模型ernie提取句向量,通过主成分分析的方法对句向量进行降维,将降维处理后的句向量作为句子向量。列数据的特征
向量。
42、在本实施例中,当使用dbscan聚类算法进行聚类分析时,存在以下目标条件: 条件1,在聚类类别标签与目标标准数据表头域的映射关系中,为了实现准确的Mapping,每个聚类类别标签只对应一个目标标准数据表的头域,一个目标标准数据表的头域对应多个聚类类别标签;条件2,聚类类别数大于等于目标标准数据表头字段数。dbscan聚类模型的参数和条目数阈值的联合设置方法有以下几种:
43、步骤1,设置优化参数为:dbscan聚类模型中邻域的距离阈值eps、邻域样本数的最小阈值、条目数的阈值三个优化参数;
44、步骤2,在三个优化参数的取值范围内,不断改变三个优化参数的取值,使dbscan聚类模型的聚类分析结果满足上述条件1和条件2。
45、在步骤2中,为了实现自动快速获取优化参数值,可以基于遗传算法进行设置,包括:
46、构造初始种群,将三个优化参数作为初始种群中个体的三个基因,初始种群中个体的基因在每个参数的取值范围内随机取值;
47.重复进化迭代步骤,直到达到迭代停止条件。进化迭代步骤为:
48.计算当前世代种群中每个个体的适应度,选择适应度大于适应度阈值的个体作为下一代种群个体,对下一代种群进行交叉和变异操作。
49. 达到迭代停止条件时,输出适应度最大的个体,这个个体的基因就是最终的优化参数值。
50、迭代停止条件优选为但不限于迭代次数达到预设的最大迭代次数。
51.个体适应度的计算过程为:获取个体基因中邻域的距离阈值、邻域内样本数的最小阈值、条目数的阈值、目标的数据条目用于 dbscan 聚类模型的聚类分析的标准数据表是条目。数量阈值:将个体邻域的距离阈值和邻域样本数的最小阈值代入dbscan聚类模型,根据步骤 c1 到 c4。得到n1个聚类类别标签(聚类中心),
52. 其中,qj表示第j个聚类类别的映射适合度值,当第j个聚类类别只对应得到的映射关系中一个目标标准数据表的头域时,qj=1,当j个聚类类别标签时对应得到的映射关系中的两个或多个(包括两个)目标标准数据表的头域,qj=-1。
53、本实施例中,处理后得到的最优参数为:调整后邻域的距离阈值eps为0.6,邻域内样本数的最小阈值为10,条目数的阈值为5000。
54、本发明公开的药品数据采集及存储方法的一种应用场景,其具体流程*敏*感*词*如图2所示,利用爬虫周期性地执行数据采集在目标 网站 上。>,基于深度悬浮算法筛选出需要采集的目标,然后人工识别分类的正确性,对网站网页截图,下载附件,网页数据采集等。处理和存储采集的数据。
55、本发明还公开了一种药品数据采集和存储系统,在一个优选实施例中,包括:
数据采集模块用于获取目标网站的附件文件和标题;目标标准数据表匹配模块,用于从药品标准数据库中查找与标题匹配的标准数据表,记录为目标标准数据表。该模块用于确定目标标准数据表中附件表中数据的对应列,并将附件表中的数据存入数据对应列中。
56.本发明还公开了一种计算机可读存储介质,其中存储了至少一条指令、至少一段程序、代码集或指令集,以及至少一条指令、至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述药物数据采集和存储方法。
57. 在本说明书的描述中,对术语“一个实施例”、“一些实施例”、“示例”、“特定”的引用收录在本发明的至少一个实施例或示例中。发明。在本说明书中,上述术语的示意性表示不一定指相同的实施例或示例。此外,所描述的特定特征、结构、材料或特性可以在任何一个或多个实施例或示例中以任何合适的方式组合。
58. 尽管已经显示和描述了本发明的实施例,但是本领域普通技术人员将理解,在不背离本发明的原理和目的的情况下,可以对这些实施例进行各种改变、修改、替换和改变。变体,本发明的范围由权利要求及其等同物限定。
操作方法:使用优采云采集器采集网页内容的方法步骤
优采云采集器 是一款功能强大且非常实用的网页抓取软件。使用本软件时,用户可以独立保存网页内容,输入想要的内容采集软件会自动识别>的网页URL,识别完成后,采集>可以进行操作,还可以将采集>的内容导出为各种文件格式,方便用户下一步使用。我在使用这个软件的时候,不知道如何操作采集>网页内容,所以小编将具体的操作方法和步骤分享给大家。感兴趣的朋友不妨看看小编的分享。这个操作指南。
方法步骤
1.第一步打开软件进入软件主界面,然后在主界面输入你想要采集>内容的网站的URL,然后点击智能 采集 > 按钮。
2、点击智能采集>按钮后,软件会识别网页。识别完成后,可以在界面中看到目标网页的内容,然后我们点击右下角的开始采集>按钮。
3、点击开始采集>后,用户需要耐心等待一段时间。软件界面出现采集>Completed窗口后,需要点击窗口中的导出数据功能选项。
4、点击导出数据后,会来到下图所示的界面,然后需要在界面中选择导出文件的格式。小编将以EXCEL文件为例来给大家演示一下,然后点击浏览按钮选择保存的文件。地址。
5、选择导出数据的保存地址后,点击界面右下角的“导出”功能按钮,即可导出采集>数据。导出完成后,用户可以查看网页 采集> 的内容数据。
使用以上教程分享的操作方法,我们可以使用优采云采集器这个软件采集>来获取我们想要的网页内容。不知道如何操作这个软件的用户要抓紧时间。试试小编分享的这个方法和步骤,希望这个教程可以对你有所帮助。