技巧:优采云采集器新手入门教程
优采云 发布时间: 2022-11-17 14:45技巧:优采云采集器新手入门教程
列表内容页面的内容采集
很多网站都有这种模式,一个列表页,点击列表中的链接会打开一个详细的信息页,这个文章就是教大家如何采集这种网页详情页面的数据。
文章入口地址为:/guide/demo/navmovies2.html
首先打开优采云采集器→点击快速启动→新建任务(高级模式)进入任务配置页面:
选择任务组,自定义任务名称和备注;
以上配置完成后,选择下一步进入流程配置页面,将打开网页的步骤拖入流程设计中
在浏览器中选择打开网页步骤,在右侧页面URL中输入网页网址点击保存,系统会自动在软件下方的浏览器中打开相应的网页:
创建一个循环来翻页。点击上方浏览器页面的下一页按钮,在弹出的对话框中选择循环点击下一页;
翻页循环创建完成后,点击下图中的保存;
由于我们需要在上图中循环点击浏览器中的电影名称,然后提取子页面中的数据信息,所以我们需要做一个循环采集列表。
点击上图中第一个循环项,在弹出的对话框中选择创建元素列表,对一组元素进行处理;
接下来在弹出的对话框中选择Add to List
添加第一个循环项后,选择继续编辑列表。
接下来以相同的方式添加第二个循环项。
当我们添加第二个循环项时,可以看到上图,此时页面上的其他元素都添加好了。这是因为我们添加了两个具有相似特征的元素,系统会在页面上智能添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环
经过以上操作,循环采集链表就完成了。系统会在页面右上方显示本页面添加的所有循环项。
由于每个页面都需要循环采集数据,所以我们需要将这个循环列表拖到翻页循环中。
注意这个过程是从上层网页开始执行的,所以这个循环列表需要放在点击翻页之前,否则会漏掉第一页的数据。最终的流程图如下图所示:
选择上图中第一个循环项,然后选择点击元素进入第一个子链接。
接下来提取数据字段,在上图中的流程设计器中点击Extract Data,然后在浏览器中选择要提取的字段,然后在弹出的选择对话框中选择该元素的文本;
经过以上操作,系统会在页面右上方显示我们要抓取的字段;
接下来在页面配置其他需要抓取的字段,配置完成后修改字段名称;
修改完成后,点击上图中的保存按钮,再点击图中的数据字段,可以看到系统会显示最终的采集列表;
点击上图中的Next→Next→Start Standalone采集进入任务检查页面,确保任务的正确性;
点击启动单机采集,系统会在本地执行采集流程,并显示最终的采集结果;
最新推出:熊猫智能采集器 V3.5 最新版
熊猫智能采集器是一款非常全面的网络资讯采集器,用户可以通过它采集获取网络资讯。软解界面简洁大方,一目了然,操作非常方便。您只需输入网址和关键词即可快速发送信息采集。需要的就快来下载吧!
软件特色
操作简单,即使你不懂技术
就像输入您的列表页面 URL 或关键词开始采集一样简单。您无需关心网页的源代码,鼠标即可操作整个过程。操作界面友好直观。全程智能协助。
全面而强大
虽然该软件操作简单,但功能强大且全面。可以实现各种复杂的采集需求。可在各种情况下使用的*敏*感*词* 采集 软件。首先用于复杂的 采集 需求。
任何页面都可以 采集
您在浏览器中看到的几乎所有内容都可以采集为您想要的格式。采集 支持JS输出内容。
采集速度快,数据完整性高
Panda 的采集 速度是采集 软件中最快的之一。独有的多模板功能+智能纠错模式,确保结果数据100%完整。
软件功能
完整的 采集 功能
采集的对象包括文字内容、图片、flash*敏*感*词*视频、下载文件等网络内容。采集同时支持图文混合对象。它支持复杂的采集对象集合、复杂的多数据库表单,以及跨页面合并采集内容的能力。
采集快
使用自主研发的解析引擎,实现类浏览器对网页源代码的解析。分解网页的视觉内容元素,并在此基础上进行机器学习和批量采集匹配。经实际测试,比传统的正则匹配方式采集快2~5倍。比第三方内置浏览器采集快10~20倍。
结果数据完整性高
在实际采集过程中,由于目标页面内容丰富,页面布局丰富,此时就需要借助Panda独有的“多模板功能”来实现完整的采集。页面上 采集 内容的 100% 采集。
多模板自动适配能力
很多网站“内容页”都会有多个不同类型的模板,所以优采云采集器软件允许每个采集项目同时设置多个内容页引用模板,当采集运行时,系统会自动匹配并找到最合适的参考模板来分析内容页面。
实时帮助窗口
在采集项目设置链接中,系统会在窗口右上方显示与当前配置相关的实时帮助内容,为新手提供实时帮助。所以 优采云采集器 软件很容易上手。全程智能辅助,即使是第一次接触优采云采集器软件,也更容易实现采集项目的配置。