搜狗微信文章采集数据说明：XpathAJAX点击和翻页列表

优采云发布时间: 2021-08-27 02:13

　　本文介绍优采云采集搜狗微信文章的使用方法（以流行的文章为例）采集网站：

　　搜狗微信搜索：搜狗微信搜索是搜狗于2014年6月9日推出的微信公众平台。“微信搜索”支持搜索微信公众号和微信文章，可以通过关键词搜索相关微信公众号@，或文章微信公众号推送。不仅是PC端，搜狗手机搜索客户端也会推荐相关的微信公众号。

　　搜狗微信文章采集资料说明：本文已将搜狗微信-热门内容文章信息采集进行了所有。本文仅以“搜狗微信-全文章信息采集”为例。实际操作过程中，您可以根据自己的需要更改搜狗微信的其他内容进行数据采集。

　　搜狗微信文章采集Detail采集字段说明：微信文章title、微信文章导语、微信文章source、微信文章发布时间、微信文章地址。

　　使用功能点：

　　Xpath

　　AJAX 点击和翻页

　　分页列表信息采集

　　第一步：创建采集task

　　1）进入主界面，选择“自定义模式”

　　2）将采集的网址复制粘贴到网站输入框中，点击“保存网址”

　　第 2 步：创建翻页循环

　　1）打开右上角的“进程”。打开网页后，默认显示“热门”文章。向下滚动页面，找到并点击“加载更多内容”按钮，在操作提示框中选择“更多操作”

　　2）选择“循环点击单个元素”创建翻页循环

　　由于本网页涉及Ajax技术，所以需要设置一些高级选项。选择“点击元素”这一步，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒”

　　注：AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据，可以在不重新加载整个网页的情况下更新网页的某个部分。

　　性能特点：当你点击网页上的一个选项时，网站的大部分网址不会改变；湾网页未完全加载，但仅部分加载了数据，这些数据会发生变化。

　　验证方法：点击操作后，在浏览器中，URL输入栏不会出现在加载状态或转动状态

　　观察网页，我们发现点击“加载更多内容”5次后，页面加载到底部，一共显示了100个文章。因此，我们将整个“循环翻页”步骤设置为执行 5 次。选择“循环翻页”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于“5次”，点击“确定”

　　第 3 步：创建一个列表循环并提取数据

　　1）移动鼠标选择页面上的第一个文章块。系统将识别此块中的子元素。在操作提示框中选择“选择子元素”

　　2）继续选择页面第二篇文章的区块，系统会自动选择第二篇文章的子元素，并识别页面中其他10组相似元素，操作提示框，选择“全选”

　　3）我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。在右侧的操作提示框中，会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后，选择“采集以下数据”

　　4）我们也想要采集每个文章 URL，所以我们需要再提取一个字段。点击第一个文章的链接，系统会自动在页面上选择一组文章链接。在右侧的操作提示框中，选择“全选”

　　5）选择“采集以下链接地址”

　　关键词0@

　　关键词1@字段选择完成后，选择对应的字段，自定义字段的命名

　　关键词2@

　　第 4 步：修改 Xpath

　　继续观察，点击“加载更多内容”5次后，这个网页加载了全部100个文章。所以我们配置规则的思路是先建立一个翻页循环，加载所有100个文章，然后创建一个循环列表提取数据

　　1）选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做，就会出现大量重复数据。

　　关键词4@

　　拖动完成后，如下图

　　关键词5@

　　2）在“列表循环”步骤中，我们创建了一个100个文章的循环列表。选择整个“循环步骤”，打开“高级选项”，元素列表中的这个Xpath不会被固定：//BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[ 3] /UL[1]/LI，复制粘贴到火狐浏览器对应位置

　　关键词7@

　　Xpath：是一种路径查询语言，简单来说就是使用路径表达式来查找我们需要的数据位置

　　Xpath 用于在 XML 中沿路径查找数据，但是 HTML 有一套 Xpath 引擎，可以直接使用 XPATH 来准确查找和定位网页中的数据

　　3）在火狐浏览器中，我们通过这个Xpath发现：//BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1]/李，20篇文章位于页面文章

　　关键词9@

　　4）将Xpath修改为：//BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI，我们发现文章页面上的所有采集都是所有位置

　　5）会修改Xpath：//BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI，复制粘贴到图中位置, 然后点击“确定”

　　关键词1@点击左上角“保存并开始”，选择“这次开始采集”

　　第五步：数据采集并导出

　　1）采集完成后会弹出提示，选择“导出数据”，选择“合适的导出方式”，导出采集好搜狗微信文章的数据

　　2）这里我们选择excel作为导出格式，导出数据如下图

0

2021-08-27

网站文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜狗微信文章采集数据说明：XpathAJAX点击和翻页列表

0 个评论

发起人

AI时代内容工厂

搜狗微信文章采集数据说明：XpathAJAX点击和翻页列表

0 个评论

发起人

相关问题