教程:微信热门文章采集方法以及详细步骤

优采云 发布时间: 2022-11-24 00:31

  教程:微信热门文章采集方法以及详细步骤

  本文将以搜狗微信文章为例,介绍使用优采云

采集网页文章正文的方法文章正文一般包括文字和图片两种。本文将在文章正文中采集

文字​​图片网址。将采集以下字段:文章标题、时间、出处、正文(正文中的所有文字将合并到一个excel单元格中,使用“自定义数据合并方式”功能,请注意)。同时,“判断条件”将用于采集

文章正文中的文字和图片的URL。使用“判断条件”时需要注意的点有很多。您可以熟悉以下两个教程。《自定义数据合并方式》

  网页打开后,默认显示“热点”文章。页面下拉,找到并点击“加载更多内容”按钮,在操作提示框中,选择“更多操作”微信热门文章采集方式步骤32)选择“循环点击单个元素”创建页面-转圈圈微信热门文章采集

方法第四步由于本网页涉及Ajax技术,我们需要设置一些高级选项。选择“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,时间设置为“2秒”微信热门文章采集方式步骤5 注:AJAX是一种延迟加载异步更新的脚本技术,通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的特定部分。性能特点: a.当点击网页中的某个选项时,大多数网站的网址不会发生变化;b. 该网页未完全加载,但仅部分加载了数据,这些数据会发生变化。验证方法:点击操作后,在浏览器中,URL输入框不会出现loading状态,也不会出现circle状态。观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开 当点击网页中的某个选项时,大多数网站的网址不会发生变化;b. 该网页未完全加载,但仅部分加载了数据,这些数据会发生变化。验证方法:点击操作后,在浏览器中,URL输入框不会出现loading状态,也不会出现circle状态。观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开 当点击网页中的某个选项时,大多数网站的网址不会发生变化;b. 该网页未完全加载,但仅部分加载了数据,这些数据会发生变化。验证方法:点击操作后,在浏览器中,URL输入框不会出现loading状态,也不会出现circle状态。观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开 在浏览器中,URL输入框不会出现在loading状态或circle状态。观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开 在浏览器中,URL输入框不会出现在loading状态或circle状态。观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开

  

  “满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定” 微信热门文章采集方法 Step 6 步骤三:创建列表循环并提取数据 1)移动鼠标选择页面链接上的第一篇文章。系统会自动识别相似链接。在操作提示框中选择“全选” Step 72) 选择“循环点击每个链接” Step 83) 系统自动进入文章详情页面。点击需要采集的字段(文章标题先点这里),在操作提示框中选择“采集该元素的文本”。文章发布时间和文章来源字段的采集方法与微信热门文章采集方法相同 Step 94) 接下来,开始采集

文章的正文。首先点击文章正文第一段,系统会自动识别页面相似元素,选择微信热门文章采集

方法的“全选”(步骤105),可以看到所有正文段落都是选中并变为绿色。选择“采集

以下元素文字”微信热门文章采集

方法步骤11 注:在字段表中,可以自定义修改字段(每段文字为一个单元格)。一般来说,我们希望将采集

到的文本合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次摘录合并为一行,即追加到同一字段,如文本页合并”,然后单击“确定”。采集方式Step 13“自定义数据字段”按钮选择“自定义数据合并方式”微信热门文章采集方式Step 14勾选微信热门文章采集方式Step 15 Step 4:修改Xpath1)选中整个“循环步骤”,打开“高级” Options”,可以看到优采云

默认生成固定元素列表,定位前20篇文章的链接。微信热门文章采集方法第162步)在火狐浏览器网页打开待采集文件,观察源码。我们发现通过这个Xpath: //DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,

  点击“加载更多内容”5 次后,该页面将加载全部 100 篇文章。所以我们配置规则编码规则下载淘宝规则,下载天猫规则,下载麻将比赛规则,pdf,博冰规则。Loop 步骤,将其拖出 Loop Page 步骤。如果不进行这个操作,就会有很多重复的数据。微信热门文章采集方法第19步拖拽完成后,微信热门文章采集方法第20步。 第6步:数据采集导出“保存”,然后点击“开始采集”,选择“开始本地采集”微信热门文章采集方法步骤212)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方法”,并完成采集微信热门文章采集方法步骤223)数据导出这里我们选择excel作为导出格式,数据导出后如下图微信热门文章采集方法步骤234)如图所示上图,部分文章正文未收录。这是因为系统自动生成的文章正文循环列表的Xpath://[@id="js_content"]/P找不到这篇文章的正文。修改Xpath为://[@id="js_content"]//P,所有文章正文都可以定位到修改Xpath前的微信热门文章采集方法Step 24 修改XPath后,微信热门文章采集方法Step 25 Step 7:添加判断条件 通过前6步,我们只采集

了微信文章中的文字内容,不包括文章中的图片网址。如果需要采集图片url,需要在规则中加入判断条件:判断文章内容列表,如果收录

img元素(图片),则执行图片采集分支;如果不收录

img元素(图片),则执行文本采集分支。同时,在 优采云

中,默认为左分支设置判断条件。如果满足判断条件,则执行左分支;,最右边的分支被执行。回到这个规则,也就是在左分支上设置条件:如果收录

img元素(图片),则执行左分支;如果不满足左条件分支的条件(即不收录

img元素),正确的分支被执行。具体操作如下: 1)从左侧工具栏中,拖一个“判断条件”步骤到流程中(按住选中的图标,拖到箭头所指的绿色加号处)的步骤262微信热门文章采集方法

  

" />

  )判断条件出现在流程图中。我们将把“提取数据”步骤移到右边的分支(在绿色加号处)。然后点击右边的分支,在出现的结果页面(分支条件检测结果——检测结果始终为True),点击“确定”,将“提取元素”步骤拖到右边的分支中。检测结果始终为True Step 283) 点击左侧的分支,在出现的结果页面点击“确定”(分支条件检测结果-检测结果始终为True)。然后为它设置判断条件:勾选“当前循环项收录

元素”,输入元素Xpath://img(代表图片),然后点击“确定”,点击左侧分支,采集

微信热门文章。第 29 步是右分支。设置判断条件微信热门文章采集方法步骤304:设置好左分支条件后,进入提取数据步骤。从左侧工具栏中,拖一个“提取数据”步骤到流程图的左侧分支(绿色加号),然后在页面中选择一张图片,在操作提示框中,选择“采集此图片地址”进入新增“提取数据”步骤,进入左侧分支微信热门文章采集方法步骤31采集图片地址微信热门文章采集方法步骤325)选择右侧分支“提取数据”步骤,点击“自定义数据字段”按钮,选择“自定义定位元素方式”,红框中选择“元素匹配Xpath”: //*[@id="js_content"

  在fish中,判断条件的各个分支中“提取数据”步骤中的字段名和字段数必须相同。这里,我们将左右两个分支中提取的字段名称改为微信热门文章采集方法的“文本”(步骤379),如上,整个判断条件就设置好了。单击左上角的“保存”和“开始捕获”。我们发现导出的excel表中,图片地址是一堆乱码。为什么是这样?继续观察网页——搜狗微信文章正文中的图片需要向下滚动才能加载,正确的图片地址加载后才能采集到。因此,打开文章后需要设置为“页面加载完成后向下滚动”。这里,设置滚动次数为“30次”,每次间隔为“2秒”,滚动方式为“向下滚动一屏”。微信文章正文中的图片需要向下滚动才能加载微信热门文章采集

方法步骤38 设置“页面加载完成后向下滚动”微信热门文章采集

方法步骤39 注意:滚动次数、时间的设置, 这里的方法会影响数据采集的速度和质量。本文仅供参考,您可以设置 10)根据需要重启采集,并导出数据,数据导出后如图: 导出数据 微信热门文章采集方法步骤40 数据示例 微信热门文章采集方法步骤41描述:由于搜狗微信文章中的图片需要向下滚动才能加载。采集过程中,大量时间花在等待图片加载上,所以采集速度慢。如果不需要采集图片,直接使用文字采集,无需等待图片加载,采集速度会快很多。相关采集教程: 京东商品信息采集 新浪微博数据采集 市场招聘信息采集优采云

——70万用户选择的网页数据采集器。1、操作简单,任何人都可以使用:不需要技术背景,会上网就可以采集

数据。流程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。2、功能强大,任何网站均可采集:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本等异步加载数据的网页,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。任何网站均可采集:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本等异步加载数据的网页,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。任何网站均可采集:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本等异步加载数据的网页,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。识别验证码、瀑布流、Ajax脚本异步加载数据,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。识别验证码、瀑布流、Ajax脚本异步加载数据,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。无需担心IP被封或网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。无需担心IP被封或网络中断。4、功能免费增值服务,可按需选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。

  操作细节:网站日志分析的操作步骤

  第一步:先找到网站日志所在服务器:登录服务器找到网站日志,顺着目录找到,下载到桌面。

  2.高级设置 找到ID,下载对应的网站日志。

  高级设置的ID

  第二步:分析网站日志

  

" />

  1、首先新建一个Excel表格,导入数据(来自文本),选择格式如图:

  选择分隔符

  选择空间

  2、导入的数据如图,然后带#号的全部删除。

  

" />

  用#删除所有

  3、然后过滤,可以清楚的分析出什么搜索引擎喜欢抓取什么页面。

  总结:网站日志就像是对网站健康问题的回应。通过分析网站日志,我们可以清晰的分析问题所在,对网站进行合理的优化。该网站的日志分析工具还包括:Light Year Log。

  网络日志

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线