优采云导航:优采云采集器优采云一一点
优采云 发布时间: 2021-08-26 06:01优采云导航:优采云采集器优采云一一点
优采云Navigation: 优采云采集器 优采云控制台
一个采集Getting Started Tutorial(简化版)一个小概念:
大多数网站 以列表页面和详细信息页面的层次结构组织。例如,当我们进入大多数新闻频道时,有很多标题链接,可以认为是列表页。点击标题链接进入详情页。
使用data采集工具的一般目的是获取详情页中的大量特定内容数据,并将这些数据用于各种分析、发布和导出等。
列表页:指栏目或目录页,一般收录多个标题链接。例如:网站home 页或栏目页为列表页。主要功能:可以通过列表页获取多个详情页的链接。
详情页:收录特定内容的页面,如网页文章,收录:标题、作者、发布日期、正文内容、标签等。
首先,请登录“优采云控制面板”:
详细使用步骤:
第一步:创建采集task
点击左侧菜单按钮“创建采集task”,输入采集task名称和采集的“列表页”网址,如:(这里首页为列表页:内容收录多个详情页是),详情页链接可以留空,系统会自动识别。
如下图:
输入后,点击“下一步”。
第2步:改进列表页的智能提取结果(可选)
系统会先通过智能算法获取需要采集的详情页链接(多个)。用户可以双击打开支票。如果数据不是您想要的,您可以单击“列表提取器”手动指定它。在可视化界面上用鼠标点击。
智能获取的结果如下图所示:
打开列表提取器后如下图:
第三步:完善详情页的智能提取结果(可选)
上一步获取多个详情页链接后,继续下一步。系统将使用其中一个详情页链接智能提取详情页数据(如标题、作者、发布日期、内容、标签等)
详情页智能提取结果如下:
如果smart提取的内容不是你想要的,可以打开“Detail Extractor”进行修改。
如下图:
您可以修改、添加或删除左侧的字段。
第 4 步:启动和运行
完成后,即可启动运行,进行数据采集了:
采集之后的数据结果,在采集任务的“Result Data & Release”中,可以在这里导出和发布数据。
完成,数据采集就是这么简单! ! !
其他操作,如发布导出数据、数据SEO处理等,请参考其他章节。
欢迎加入QQ交流群:542942789(优采云采集-01群)、610193638(优采云采集-02群)、869476500(优采云采集-03群);
优采云Navigation: 优采云采集器 优采云控制台