内容采集系统(神通T-Bees网络信息采集系统)
优采云 发布时间: 2022-03-28 03:20内容采集系统(神通T-Bees网络信息采集系统)
产品描述
申通T-Bees网络信息采集系统具有流程定义管理、流程实例管理、站点管理、分类管理、全局设置五个功能模块。系统采用两个进程作为主线系列系统功能,一个是“网页内容采集进程”,这个进程的主要目的是完成站点所有网页的内容采集@ > 用户在网上指定的,一个是“网页内容模板解析过程”。该流程的主要目的是在“网页内容采集流程”完成后,根据业务需求为采集的网页文件定制内容解析模板。内容解析完成从"的转换
网页爬取:设计爬取流程,通过新建进程、查看进程、保存进程、删除进程、执行进程、调度进程、监控进程、终止等操作实现网页内容一个流程,并导出结果采集@ > 流程和网页内容模板解析过程的全生命周期管理。在网页内容模板解析中,通过自定义内容解析模板,对抓取到的网页内容进行解析,将非结构化网页转化为结构化数据,从而提取网页中的表格数据。并基于聚类技术,实现最少定义的解析模板,解析最多的网页内容。
爬取结果处理:对爬取的网页进行自动处理和处理。基于机器学习和自然语言处理技术,将web格式的网页转换为纯文本文件,对重复的页面进行去重采集,对比同源网页的版本,自动分类自动聚类网页的内容,并为处理后的网页生成索引以供检索。
主要特征
流程定制可视化:可以定制“网页抓取流程”、“网页内容解析导出”等各类流程。流程的每个节点都提供了细粒度的控制参数,供高级用户进行性能调优。对于普通用户,接受默认参数即可开始爬取。其中,对于“网页内容爬取过程”,可以指定一个或多个起始URL进行爬取,起始站点的数量不受限制,可以任意增加。进程可以在单机或分布式上执行。
流程监控可视化:在流程执行过程中,可以图形化方式监控流程的执行情况,查看当前正在执行的节点,已经执行的节点可以查看该节点的输入输出文件的内容,并显示流程执行过程中的日志。方便随时了解系统运行的内部状态。