算法 自动采集列表(优采云控制台一采集入门教程(简化版)(图))

优采云 发布时间: 2021-09-02 05:20

  算法 自动采集列表(优采云控制台一采集入门教程(简化版)(图))

  优采云Navigation: 优采云采集器 优采云控制面板

  一个采集Getting Started Tutorial(简化版)一个小概念:

  大多数网站 以列表页和详细信息页的层次结构组织。比如我们进入一个新闻频道,有很多标题链接,可以看成是一个列表页。点击标题链接进入详情页。

  使用data采集工具的一般目的是获取详情页中的大量特定内容数据,并将这些数据用于各种分析、发布和导出等。

  列表页:指栏目或目录页,一般收录多个标题链接。例如:网站home 页或栏目页为列表页。主要功能:可以通过列表页获取多个详情页的链接。

  详情页:收录特定内容的页面,如网页文章,其中收录:标题、作者、发布日期、正文内容、标签等。

  要开始,请登录“优采云控制面板”;

  详细使用步骤:

  第一步:创建采集task

  点击左侧菜单按钮“创建采集task”,输入采集task名称和采集的“列表页”网址,如:(这里首页为列表页:内容收录多个详情页是),详情页链接可以留空,系统会自动识别。

  如下图:

  

  进入后点击“下一步”

  第2步:改进列表页的智能提取结果(可选)

  系统会先通过智能算法获取需要采集的详情页链接(多个)。用户可以双击打开支票。如果数据不是您想要的,您可以单击“列表提取器”手动指定它。在可视化界面上用鼠标点击。

  智能获取的结果如下图所示:

  

  另外:在上面的结果中,系统还智能发现了翻页规则,用户可以设置采集需要多少页。您也可以稍后在任务“基本信息和Portal URL”--“根据规则生成URL”项中进行配置。

  打开列表提取器,如下所示:

  

  第三步:完善详情页的智能提取结果(可选)

  上一步获取多个详情页链接后,继续下一步。系统将使用其中一个详情页链接智能提取详情页数据(如标题、作者、发布日期、内容、标签等)

  详情页智能提取结果如下:

  

  如果smart提取的内容不是你想要的,可以打开“Detail Extractor”进行修改。

  如下图:

  

  您可以修改、添加或删除左侧的字段。

  第 4 步:启动和运行

  完成后,即可启动运行,进行数据采集了:

  

  采集之后的数据结果,在采集任务的“Result Data & Release”中,可以在这里导出和发布数据。

  

  完成,数据采集就是这么简单! ! !

  其他操作,如发布和导出数据、数据SEO处理等,请参考其他章节。

  优采云Navigation: 优采云采集器 优采云控制面板

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线