算法 自动采集列表(优采云控制台一采集入门教程(简化版)(图))
优采云 发布时间: 2021-09-02 05:20算法 自动采集列表(优采云控制台一采集入门教程(简化版)(图))
优采云Navigation: 优采云采集器 优采云控制面板
一个采集Getting Started Tutorial(简化版)一个小概念:
大多数网站 以列表页和详细信息页的层次结构组织。比如我们进入一个新闻频道,有很多标题链接,可以看成是一个列表页。点击标题链接进入详情页。
使用data采集工具的一般目的是获取详情页中的大量特定内容数据,并将这些数据用于各种分析、发布和导出等。
列表页:指栏目或目录页,一般收录多个标题链接。例如:网站home 页或栏目页为列表页。主要功能:可以通过列表页获取多个详情页的链接。
详情页:收录特定内容的页面,如网页文章,其中收录:标题、作者、发布日期、正文内容、标签等。
要开始,请登录“优采云控制面板”;
详细使用步骤:
第一步:创建采集task
点击左侧菜单按钮“创建采集task”,输入采集task名称和采集的“列表页”网址,如:(这里首页为列表页:内容收录多个详情页是),详情页链接可以留空,系统会自动识别。
如下图:
进入后点击“下一步”
第2步:改进列表页的智能提取结果(可选)
系统会先通过智能算法获取需要采集的详情页链接(多个)。用户可以双击打开支票。如果数据不是您想要的,您可以单击“列表提取器”手动指定它。在可视化界面上用鼠标点击。
智能获取的结果如下图所示:
另外:在上面的结果中,系统还智能发现了翻页规则,用户可以设置采集需要多少页。您也可以稍后在任务“基本信息和Portal URL”--“根据规则生成URL”项中进行配置。
打开列表提取器,如下所示:
第三步:完善详情页的智能提取结果(可选)
上一步获取多个详情页链接后,继续下一步。系统将使用其中一个详情页链接智能提取详情页数据(如标题、作者、发布日期、内容、标签等)
详情页智能提取结果如下:
如果smart提取的内容不是你想要的,可以打开“Detail Extractor”进行修改。
如下图:
您可以修改、添加或删除左侧的字段。
第 4 步:启动和运行
完成后,即可启动运行,进行数据采集了:
采集之后的数据结果,在采集任务的“Result Data & Release”中,可以在这里导出和发布数据。
完成,数据采集就是这么简单! ! !
其他操作,如发布和导出数据、数据SEO处理等,请参考其他章节。
优采云Navigation: 优采云采集器 优采云控制面板