分页列表详细信息采集 | 2个月精通优采云第1课

优采云发布时间: 2022-06-18 17:46

　　在之前的教程中，我们以赶集网商铺数据采集、携程网旅游数据采集为例，感受了一波优采云嗖嗖嗖采集数据的常（li）规（hai）操作。

　　咦？这两个实战案例，规则配置长相似，采集流程有点像？

　　来吧，是时候溯本求源，透过现象看本质了。

　　网页内容由相似的区块组成，需要点击“下一页”进行翻页，再点击每个链接进入详情页采集数据，没错就是——分页列表详细信息采集。

　　本文中示例网站地址为：

　　在开始采集之前，需观察网页结构、明确采集内容。以示例网址为例，内容共有4页，每页有3个电影链接。我们需要点击每一部电影的链接，进入电影详情页，采集电影的剧情、上映时间等字段。

　　优采云基于 Firefox 内核浏览器，通过模拟人的思维操作方式，对网页内容进行全自动提取。以示例网址为例，在优采云里打开后，需先建立一个点击“下一页”的翻页循环，自动点击“下一页”翻页。再建立一个电影链接列表循环，以打开每个电影的链接，进入电影详情页。然后再采集电影详情页的数据。

　　1打开网页

　　1）登陆优采云7.0采集器，点击新建任务，选择“自定义采集”。进入到任务配置页面

　　2）输入要采集的网址，点击“保存网址”。系统会进入到流程设计页面，并自动打开前面输入的网址

　　2建立翻页循环

　　1）用鼠标点击“下一页”按钮，在弹出的操作提示框中，选择“循环点击下一页”。这个步骤会模拟人工，自动点击翻页

　　3建立循环列表

　　1）点击下图中第一个电影“教父：第二部”的链接，链接将被选中，用绿色框标注出来

　　2）优采云的智能算法，会自动检测出其他相似元素（本例中为其他两个电影标题链接）。在操作提示框中，选择“选中全部”，优采云自动选中全部电影链接

　　3）选择“循环点击每个链接”，优采云会自动逐个点击每个电影链接，进入电影详情页

　　4提取数据

　　1）点击页面中要提取的电影标题字段，标题字段即被选中，选中后以红色框标注出来

　　2）在弹出的提示框中，选择“采集该元素的文本”，表明要采集的是页面中的文本数据

　　3）以同样的方式，点击要采集的其他段，再选择“采集该元素的文本”

　　5修改字段名称

　　1）点击“流程”按钮，以显示“流程设计器”和“定制当前操作”两个板块。（在配置规则过程中，“流程”随时可打开）

　　2）在如下界面中，修改字段名称。这里的字段名称相当于表头，便于采集时区分每个字段类别。修改完成后，点击“确定”保存

　　6启动采集

　　1）点击“保存并启动”，在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上，开启一个采集任务并采集数据

　　2）任务采集完毕之后，会弹出一个采集结束的提示，接下来选择导出数据，这里以选择导出excel2007为例，然后点击确定

　　3）选择文件存放路径，再点保存即可

　　然后，我们分分钟就得到了这样的数据

　　动图模式有木有学得更爽？

　　有任何建议或问题，请biubiubiu砸向我！

　　建议各位小可爱

　　学了分页列表详细信息采集

　　趁热打铁实战一波

　　更多实战教程

0

2022-06-18

算法自动采集列表

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分页列表详细信息采集 | 2个月精通优采云第1课

0 个评论

发起人

AI时代内容工厂

分页列表详细信息采集 | 2个月精通优采云第1课

0 个评论

发起人

相关问题