无规则采集器列表算法( 优采云软件出品的一款基于高精度正文识别算法的互联网文章采集器)
优采云 发布时间: 2021-12-25 07:10无规则采集器列表算法(
优采云软件出品的一款基于高精度正文识别算法的互联网文章采集器)
优采云基于本软件制作的高精度文本识别算法的互联网文章采集器。支持按关键词采集各大搜索引擎的新闻和网页,也支持采集指定的网站栏目下的所有文章。基于自主研发的文本识别智能算法,可以从互联网上复杂的网页中尽可能准确地提取文本内容。
文本识别有 3 种算法,“标准”、“严格”和“精确标签”。其中“standard”和“strict”是自动模式,可以适应大部分网页的body提取,而“precision tag”只需要指定body标签头,比如“div class="text” "". 提取所有网页的正文。
关键词采集目前支持的搜索引擎有:百度、搜狗、360、谷歌、必应、雅虎
<p>采集指定网站文章的功能也很简单,只需要一点点设置(不需要复杂的规则),就可以批量采集targets