关键词 文章采集(搜狗微信文章采集数据说明:XpathAJAX点击和翻页列表 )
优采云 发布时间: 2022-02-04 03:22关键词 文章采集(搜狗微信文章采集数据说明:XpathAJAX点击和翻页列表
)
本文介绍优采云采集搜狗微信文章的使用方法(以流行的文章为例)采集网站:
搜狗微信搜索:搜狗微信搜索是搜狗于2014年6月9日推出的微信公众平台。“微信搜索”支持搜索微信公众号和微信文章,您可以通过关键词搜索相关的微信公众号@>,或文章微信公众号推送。不仅在PC端,搜狗的移动搜索客户端也会推荐相关的微信公众号。
搜狗微信文章采集资料说明:本文收录搜狗微信-热门内容的所有文章信息采集。本文仅以“搜狗微信-所有文章信息采集热门内容”为例。实际操作过程中,您可以根据自己对数据的需求更改搜狗微信的其他内容采集。
搜狗微信文章采集详细采集字段说明:微信文章标题,微信文章领导,微信文章来源,微信文章@ > 发布时间,微信文章地址。
使用功能点:
Xpath
AJAX点击和翻页
分页列表信息采集
第 1 步:创建一个 采集 任务
1)进入主界面,选择“自定义模式”
2)复制你想要采集的网址的网址并粘贴到网站的输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)在右上角打开进程。打开网页时,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在动作提示框中,选择“更多动作”
2)选择“循环点击单个元素”创建翻页循环
由于这个网页涉及到 Ajax 技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,时间设置为“2秒”
注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某个部分。
性能特点: a.当点击网页上的某个选项时,网站的大部分URL不会改变;湾。网页没有完全加载,而只是部分加载了数据,这些数据会发生变化。
验证方法:点击操作后,在浏览器中,在加载状态或圆圈状态下不会出现网址输入栏
观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章文章。因此,我们将整个“循环页面”步骤设置为执行 5 次。选择“循环页面”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
第 3 步:创建列表循环并提取数据
1)移动鼠标选择页面上第一篇文章文章的区块。系统会识别该块中的子元素,在操作提示框中,选择“选择子元素”
2)在页面上继续选择第二篇文章的区块,系统会自动选择第二篇文章中的子元素,并识别出其他10组相似元素在页面上,在动作提示框中,选择“全选”
3)我们可以看到页面的文章块中的所有元素都被选中并变为绿色。在右侧的操作提示框中,会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不必要的字段。字段选择完成后,选择“采集以下数据”
4)我们还想要采集每个文章的URL,所以我们需要多提取一个字段。点击第一个文章的链接,系统会自动选择页面上的一组文章链接。在右侧的操作提示框中,选择“全选”
5)选择“采集以下链接地址”
关键词0@>
关键词1@>字段选择完成后,选择对应字段即可自定义字段名称
关键词2@>
第 4 步:修改 Xpath
我们继续观察,在“加载更多内容”点击 5 次后,该页面加载了全部 100 篇文章文章。所以我们配置规则的思路是先建立一个翻页循环,把100篇文章全部加载文章,然后建立一个循环列表提取数据
1)选择整个循环步骤并将其拖出循环页面步骤。如果不这样做,会出现大量重复数据
关键词4@>
拖动完成后如下图
关键词5@>
2)在“LIST LOOP”步骤中,我们构建了一个收录 100 个 文章 文章的循环列表。选择整个“循环步骤”,打开“高级选项”,不会在元素列表中修复这个Xpath://BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3 ] /UL[1]/LI ,复制粘贴到火狐对应位置
关键词7@>
Xpath:它是一种路径查询语言。简单地说,它使用路径表达式来查找我们需要的数据位置。
Xpath是用来沿着XML中的路径查找数据,但是有一套针对HTML的Xpath引擎,这样就可以使用XPATH来准确的查找和定位网页中的数据
3)在 Firefox 中,我们通过这个 Xpath://BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1] /LI 发现,20文章位于页面 文章
关键词9@>
4)修改Xpath为://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,我们在页面中找到了所有的采集 文章 都位于
5)将修改后的Xpath://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI复制粘贴到图中所示位置,然后点击“行”
关键词1@>点击左上角的“Save and Launch”,选择“Start This Time采集”
第 5 步:数据采集 和导出
1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据
2)这里我们选择excel作为导出格式,导出数据如下图