智能采集器( 本发明涉web互联网领域涉及一种基于pc端的页面信息智能采集工具及方法)
优采云 发布时间: 2022-03-17 02:21智能采集器(
本发明涉web互联网领域涉及一种基于pc端的页面信息智能采集工具及方法)
本发明涉及网络互联网领域,具体涉及一种基于PC的页面信息智能采集工具和方法。
背景技术:
现有的页面数据提取工具根据用户选择的页面元素提取页面数据,利用节点分析算法和相应页面信息提取动作所需的配置参数,从而达到页面信息提取的目的。虽然数据是提取出来的,但是这些数据一般都列在一个条目中,然后展示给用户浏览。
1)页面上哪些数据可以提取,哪些不能提取,没有明确标识,一定程度上会混淆用户。
2)提取出来的信息都是单一的、分散的,信息与信息之间没有关联
3)提取的信息在展示时不能再次修改、添加、删除、建立关系、添加群组、添加笔记等,有利于用户的浏览操作。
4)无法对提取的数据进行截图、保存数据、导出、上传附件等操作,有利于用户下次继续浏览和备份操作
5)提取出来的数据不能再分析,即把提取出来的数据作为信息源,再进行二次分析,有利于问题的二次定位和深入分析的数据。
技术实施要素:
发明目的:为了克服现有技术的不足,本发明提供一种基于pc的页面信息智能采集工具和方法,能够快速简洁地提取,帮助用户快速定位问题,并大大提高工作效率。
技术解决方案:
一种基于PC的页面信息智能采集工具,包括页面抽取数据展示模块、页面数据抽取模块、页面数据处理模块、页面数据展示操作模块;
页面可提取数据展示模块根据页面上预设的数据类型信息,在用户浏览页面的过程中对可提取信息进行标记并显示;
页面数据提取模块根据不同数据类型的标识数据对页面进行数据提取和分类,得到分类后的页面数据;
页面数据处理模块通过比较页面数据提取模块提取的页面数据之间的标识数据来判断数据之间的关系,并根据预设的数据类型信息对提取的页面数据进行合并;
页面数据展示操作模块将提取的数据及其关系以节点和连接的形式展示在画布上。
它还包括一个后续分析模块。后续分析模块对多个节点的内容进行后续分析操作,列出可以分析的数据,通过用户自由选择的分析项目对选中的数据进行二次分析,并展示分析结果。出来。
预设的数据类型包括五种数据,分别是任务数据、案例数据、卡片数据、关系和对象数据、活动轨迹数据。
使用高亮提示显示标记显示。
数据之间的关系具体如下:如果将同一节点关系中的数据合并到同一个节点中,如果两条数据满足关系结构,则建立关系连接。
一种页面信息的智能采集方法,包括以下步骤:
(1)页面预设数据类型信息,数据类型包括五种数据,分别是任务数据、案例数据、卡片数据、关系与对象数据、活动轨迹数据;
(2)在用户浏览页面的过程中,根据页面上预设的数据类型信息,对可抽取的页面数据进行标记显示,用户过滤需要抽取的页面数据;
(3)用户对待提取页面数据进行筛选后,从页面中提取数据,根据待提取页面数据中不同数据类型的标识数据进行分类,得到分类后的页面数据;
(4)通过比较步骤(3)中提取的页面数据之间的标识数据来判断数据之间的关系,并根据步骤(1)预先设置的数据类型信息)到步骤(3)提取的页面数据被合并;
(5)在画布上以节点和线的形式显示步骤(4)的组合结果。
在步骤(5)中,可以自由拖*敏*感*词*布上的节点进行布局,并且可以自定义和编辑节点和节点上的内容、关系和关系线上的内容。
自定义编辑具体包括:
手动添加节点:选择节点类型和关键级别,添加到关系图中;节点默认显示图标根据类型确定,节点边框颜色根据关键级别选择。如果是人员节点,则选择*敏*感*词*照片作为节点图标;
手动添加关系:选择关系线和关系类型,输入相关内容;
修改关系:编辑关系内容,拖动关系线编辑位置;
删除关系;
新建群组功能:为群组外的多个或单个节点创建新群组;
群组编辑功能:编辑指定群组,包括群组名称及备注的修改;
节点解绑功能:解绑单个或多个节点,选中的节点会直接与对应组解绑;
组取消功能:取消指定组。
有益效果:本发明可以帮助用户从多个页面中提取数据(可提取的数据高亮显示,一目了然,方便用户识别),并根据一定的关系合并或建立连接,减少了用户对提取数据的分析时间,减少了工作量。同时提取出来的数据会被用户展示和编辑,方便用户分析。通过提供的widget模块,可以帮助用户对数据所属的任务进行整体处理(保存、添加附件、备注、另存为、导出、导航、高亮模式等)二次分析(后续操作),提取有用的数据并删除不相关的数据。
图纸说明
无花果。附图说明图1是本发明的结构*敏*感*词*。
无花果。图2是本发明的工具模块的*敏*感*词*。
无花果。图3为本发明的操作模块*敏*感*词*。
详细说明
下面结合附图对本发明作进一步的说明。
本发明的基于pc的页面信息智能采集结合了后台的restful界面,前台运行的node.js环境,以及生成图形的javascript函数库d3.js,使单个前台、后台框架串联起来,形成一个前后分离的系统,包括:
页面可提取数据展示模块:用于在用户浏览页面过程中,对可提取信息进行标记和高亮显示,并显示给用户,方便用户过滤。
本发明在页面上预先定义了特定的信息格式,包括用户需要的常用数据类型,数据类型包括五种数据,包括任务数据、案例数据、卡片数据、关系和对象数据、活动轨迹数据。其中,任务数据为任务信息数据;案例数据是与案例相关的信息;卡数据为*敏*感*词*、电话号码、个人姓名等信息;活动轨迹表示活动信息,如时间、地点等;关系,从而匹配每个数据建立关系。这些类型的数据在页面提取期间显示。在本发明中,采用高亮提示进行显示。
页面数据提取模块:用户对页面的可提取数据进行过滤后,根据不同数据类型的页面标识对页面数据进行提取和分类,得到分类后的页面数据。该模块还提供了“单条提取功能”和“一键提取功能”,分别对用户选择的数据进行单条数据提取和一键提取。
其中,页面标识如下:
任务数据:
案例资料:
<spanibox_case_id=""ibox_case_code=""ibox_case_name=""
ibox_case_remark=""></span>'
卡片资料:
关系和对象数据:
<tr>
<td>
<Spanclass = “iboxextract” SRCTYPE = “15014” srcvalue = “ajbh111111” ibox_case_code = xxxibox_case_name = xxxibox_case_remark = xxxxibox_relation_type_src = “15014” ibox_relation_value_src = “ajbh111111” DESTTYPE = “11097” destvalue = “6532252” ibox_relation_type_dest = “11097” ibox_relation_value_dest =“ 6532252"relationtypes="8"></span>
</td>
<td>xxxxx</td>
<td>xxxxxxxx</td>
</tr>
活动轨迹数据:
页面数据处理模块:对提取的数据进行合并,根据特定的数据结构,通过比较两条数据中的标识数据,判断数据之间是否存在关系,关系是什么:如果是相同的节点关系,会合并到同一个节点中。在节点下,如果两条数据满足关系结构,则建立关系连接。经页面数据合并模块处理后,页面数据不再分散、单一。
页面数据展示操作模块:基于d3.js图形功能开发的可视化模块,将提取的数据及其关系展示在画布上;使用节点和连接来表示它们之间的特定关系。
在画布上自由拖动和布局节点。可以自定义编辑节点上的内容,也可以自定义编辑关系线上的内容,还可以提供分组功能对节点进行分组做笔记;详情包括:
手动添加节点:选择节点类型、焦点级别,添加到关系图中。节点默认显示图标根据类型确定,节点边框颜色根据关键级别选择。如果是人员节点,可以选择*敏*感*词*照片作为节点图标;
手动添加关系:选择关系线和关系类型,输入相关内容;
修改关系:选择编辑编辑关系内容,拖动关系线改变位置,点击保存按钮提交修改操作;
删除关系:选择Delete删除关系,点击Save按钮提交删除操作;
新建群组功能:对于群组外的多个或单个节点,右键菜单“新建群组”会在新建群组时自动给群组起一个默认群组名称(以“新建群组”+编号,作为默认名称) ;
群组编辑功能:编辑指定群组,包括群组名称及备注的修改;
节点解绑功能:解绑单个或多个节点,选中的节点会直接与对应组解绑;
组取消功能:取消指定组。
后续分析模块:对多个节点的内容进行后续分析操作,选择属性函数,属性包括姓名、*敏*感*词*、电话、车辆、地址等;后续对多个节点内容的分析操作,列出可分析的数据,您可以自由选择分析项目,对选定的数据进行二次分析。二次分析会跳转到对应分析模块的结果页面,显示分析结果,将提取和模块分析两个功能串起来。提取后的多样化数据处理。
本发明还具有一种工具模块,包括:
手动新建任务:供用户手动添加任务,输入任务名称保存任务;
数据抽取与创建任务:用户抽取与任务标识关联的业务模块数据后,根据数据自动创建任务;
修改任务:选择并打开已有任务时,修改该任务的备注并保存;
删除任务:用于选择已有任务,执行删除任务操作,删除所有关联任务;
刷新:用于加载库中的最新数据
文本提取添加属性:用于提供文本提取添加属性功能,可自定义添加属性;
上传图片:支持自定义上传节点图片和关系图片;
上传附件:支持自定义上传任务附件
任务另存为:用户指定一个任务,将该任务保存为一个操作,复制原任务及其所有节点、关系等,并以新的任务名称保存;
导航:提供导航按钮,显示导航图;
导航图片导出:提供导出按钮,用于导出当前导航框中的图片。
以上仅为本发明的较佳实施例而已,需要指出的是:对于本领域的技术人员来说,在不脱离本发明的原理的情况下,还可以进行若干改进和变型,这些改进和变型也应视为本发明的保护范围。