文章采集内容(“自定义数据合并方式”详解教程:“判断条件”)
优采云 发布时间: 2021-12-26 15:02文章采集内容(“自定义数据合并方式”详解教程:“判断条件”)
微信热门文章采集
方法及详细步骤
本文将以搜狗的微信文章为例,介绍使用优采云
采集网页文章正文的方法。文章正文一般包括文字和图片。本文将采集
文章正文中的文字+图片网址。
将采集以下字段:文章标题、时间、来源和正文(正文中的所有文本将合并到一个excel单元格中,将使用“自定义数据合并方法”功能,请注意)。同时,采集文章正文中的文字+图片网址会使用“判断条件”和“判断条件”的使用。需要注意的地方很多。请熟悉以下两个教程。
《自定义数据合并方法》详细教程:
“判断条件”详细教程:
采集
网站:
使用功能点:
分页列表信息采集
路径
AJAX点击和翻页
分析条件
AJAX 滚动
第 1 步:创建采集
任务
1)进入主界面,选择“自定义模式”
微信热门文章采集
方法步骤一
2) 将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
微信热门文章采集
方法步骤二
第 2 步:创建翻页循环
在页面的右上角,打开“流程”显示两个部分:“流程设计器”和“自定义当前操作”。打开网页后,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”
微信热门文章采集
方法步骤3
选择“循环点击单个元素”创建翻页循环
微信热门文章采集
方法步骤4
由于这个网页涉及到Ajax技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
微信热门文章采集
方法步骤5
注:AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以在不重新加载整个网页的情况下更新网页的某一部分。
性能特点: a.当您点击网页中的一个选项时,大多数网站的网址不会改变;湾 网页未完全加载,但仅部分加载了数据并发生了更改。
验证方法:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环车削”步骤设置为执行 5 次。选择“循环翻页”
步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
微信热门文章采集
方法步骤6
第 3 步:创建列表循环并提取数据
移动鼠标选择页面上的第一篇文章链接。系统会自动识别相似链接,在操作提示框中选择“全选”
微信热门文章采集
方法步骤7
选择“循环浏览每个链接”
微信热门文章采集
方法步骤8
系统会自动进入文章详情页面。点击需要采集的字段(此处点击文章标题),在操作提示框中选择“采集该元素的文本”。文章发表时间和文章来源字段的采集方式也是如此
微信热门文章采集
方法步骤9
接下来,开始采集
文章的正文。首先点击文章正文的第一段,系统会自动识别页面中的相似元素,选择“全选”
微信热门文章采集
方法步骤10
5)可以看到所有的文本段落都被选中并变成了绿色。选择“采集
以下元素文本”
微信热门文章采集
方法步骤11
注:在字段表中,可以自定义字段的修改
微信热门文章采集
方法步骤12
6) 经过以上操作后,文本将全部采集
起来(默认情况下,文本的每一段都是一个单元格)。一般来说,我们希望将采集
到的文本合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方法”,勾选“多次提取并合并同一个字段为一行,即追加到同一个字段,如文本页面合并”,然后点击“确定”