优采云采集器配置了三种内容提取的方式,你知道吗?

优采云 发布时间: 2021-08-10 18:04

  优采云采集器配置了三种内容提取的方式,你知道吗?

  5、采集Test:这是任何其他类似的采集 软件都无法比拟的。程序支持直接查看采集结果并测试发布。

  6、 管理便捷:使用站点+任务模式管理采集节点,任务支持批量操作,更轻松的数据管理。

  功能介绍

  1、URL采集

  优采云采集器可以使用URL采集规则设置快速采集到想要的URL信息。可以手动输入、批量添加,也可以直接从文本中导入网址,并可以自动过滤掉重复的网址信息。

  支持多级页面网址的采集,多级网址采集可以通过页面分析自动获取地址和手动填写规则两种方式。为了处理内容不同但地址相同的多级页面,URL采集和优采云采集器设置了三种HTTP请求方式:GET、POST和ASPXPOST。

  优采云采集器支持网站采集测试,可以验证操作的正确性,避免采集错误操作导致结果不准确

  2、内容采集

  优采云采集器可以分析网页源代码,设置内容采集规则,精准采集到网页分散的内容数据,支持多层次等复杂页面的内容和多页采集。

  通过定义标签,可以对数据进行采集分类,比如将文章内容的标题与采集正文分开。 优采云采集器配置了三种内容抽取方式:截取前后、常规抽取、正文抽取。选择性强,用户可以根据自己的需要选择。

  内容采集也支持测试功能。可以用一个典型的页面来测试采集内容的正确性,以便及时更正和后续数据处理。

  3、数据处理

  对于采集收到的信息数据,优采云采集器可以对其进行一系列的智能处理,使采集收到的数据更加符合我们的使用标准。主要包括:

  1)tag 过滤:过滤掉内容中不必要的空格、链接等标签; 2)替换:支持近义替换;

  3)数据转换:支持中文转英文、简体转繁体、转拼音等;

  4)自动抽象、自动分词:支持自动摘要生成和自动分词功能;

  5)download 选项:优采云采集器支持任意格式的文件检测下载,可以智能完成相对地址到绝对地址的转换。

  

  4、数据发布

<p>优采云采集器采集数据down后,数据默认保存在本地数据库(sqlite、mysql、sqlserver)中。用户可以根据自己的需要选择对数据进行后续操作完成数据发布,支持直接查看数据、在线发布数据并入库,支持用户使用和开发发布界面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线