文章采集规则(本文介绍使用优采云采集搜狗微信文章（一）)

优采云发布时间: 2021-08-30 03:10

　　本文介绍优采云采集搜狗微信文章的使用方法（以流行的文章为例）采集网站:/

　　使用功能点：

　　l 分页列表信息采集

　　/tutorial/fylb-70.aspx?t=1

　　l Xpath

　　/search?query=XPath

　　l AJAX 点击和翻页

　　/tutorial/ajaxdjfy_@k22@aspx?t=1

　　第一步：创建采集task

　　1）进入主界面，点击左侧“新建”，选择“自定义任务”

　　2）将采集的网址复制粘贴到网站输入框中，点击“保存设置”

　　第 2 步：创建翻页循环

　　1）网页打开后，默认显示“热门”文章。向下滚动页面，找到并点击“加载更多内容”按钮，在操作提示框中选择“循环点击单个链接”

　　由于本网页涉及Ajax技术，所以需要设置一些高级选项。在操作提示框中，设置Ajjax超时时间为“2秒”

　　注：AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换，无需重新加载整个网页即可更新网页的某一部分。

　　性能特点：当你点击网页上的一个选项时，网站的大部分网址不会改变；湾网页未完全加载，只是部分加载了数据并发生了更改。

　　验证方法：点击操作后，URL输入栏在浏览器中不会出现加载状态或转动状态。

　　观察网页，我们发现点击“加载更多内容”5次后，页面加载到底部，一共显示了100个文章。因此，我们将整个“循环翻页”步骤设置为执行 5 次。选择“循环翻页”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于“5”，点击“确定”

　　第 3 步：创建一个列表循环并提取数据

　　1）移动鼠标选择页面上的第一个文章块。系统将识别此块中的子元素。在操作提示框中选择“选择子元素”

　　2）继续选择页面第二篇文章的区块，系统会自动选择第二篇文章的子元素，并识别页面其他10组相似元素, 在操作提示框中，选择“全选”

　　3）我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。字段预览表出现在下方。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后，选择“采集以下数据”

　　4）字段选择完成后，选择对应的字段，自定义字段的命名

　　第 4 步：修改 Xpath

　　我们继续观察，5次点击“加载更多内容”后，这个网页加载了全部100个文章。所以，我们配置规则的思路是先建立一个翻页循环，加载所有100个文章，然后创建一个循环列表提取数据

　　1）选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做，就会出现大量重复数据。

　　拖动完成后，如下图

　　2）在“列表循环”步骤中，我们创建了一个100个文章的循环列表。选择整个“循环步骤”，打开“高级选项”，元素列表中的这个Xpath不会被固定：

<p>//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI，复制粘贴到火狐浏览器对应位置

0

2021-08-30

文章采集规则

0 个评论

要回复文章请先登录或注册