内容采集系统(神通T-Bees网络信息采集系统)

优采云发布时间: 2022-03-28 03:20

　　产品描述

　　申通T-Bees网络信息采集系统具有流程定义管理、流程实例管理、站点管理、分类管理、全局设置五个功能模块。系统采用两个进程作为主线系列系统功能，一个是“网页内容采集进程”，这个进程的主要目的是完成站点所有网页的内容采集@ > 用户在网上指定的，一个是“网页内容模板解析过程”。该流程的主要目的是在“网页内容采集流程”完成后，根据业务需求为采集的网页文件定制内容解析模板。内容解析完成从"的转换

　　网页爬取：设计爬取流程，通过新建进程、查看进程、保存进程、删除进程、执行进程、调度进程、监控进程、终止等操作实现网页内容一个流程，并导出结果采集@ > 流程和网页内容模板解析过程的全生命周期管理。在网页内容模板解析中，通过自定义内容解析模板，对抓取到的网页内容进行解析，将非结构化网页转化为结构化数据，从而提取网页中的表格数据。并基于聚类技术，实现最少定义的解析模板，解析最多的网页内容。

　　爬取结果处理：对爬取的网页进行自动处理和处理。基于机器学习和自然语言处理技术，将web格式的网页转换为纯文本文件，对重复的页面进行去重采集，对比同源网页的版本，自动分类自动聚类网页的内容，并为处理后的网页生成索引以供检索。

　　主要特征

　　流程定制可视化：可以定制“网页抓取流程”、“网页内容解析导出”等各类流程。流程的每个节点都提供了细粒度的控制参数，供高级用户进行性能调优。对于普通用户，接受默认参数即可开始爬取。其中，对于“网页内容爬取过程”，可以指定一个或多个起始URL进行爬取，起始站点的数量不受限制，可以任意增加。进程可以在单机或分布式上执行。

　　流程监控可视化：在流程执行过程中，可以图形化方式监控流程的执行情况，查看当前正在执行的节点，已经执行的节点可以查看该节点的输入输出文件的内容，并显示流程执行过程中的日志。方便随时了解系统运行的内部状态。

0

2022-03-28

内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集系统(神通T-Bees网络信息采集系统)

0 个评论

发起人

AI时代内容工厂

内容采集系统(神通T-Bees网络信息采集系统)

0 个评论

发起人

相关问题