微信热门文章采集方法以及详尽步骤.docx

优采云 发布时间: 2020-08-18 10:43

  微信热门文章采集方法以及详尽步骤.docx

  文档介绍:

  微信热门文章采集方法以及详尽步骤

  本文将以搜狗陌陌文章为例,介绍使用优采云采集网页文章正文的技巧。文章正文里通常包括文本和图片两种。本文将采集文章正文中的文本+图片URL。

  将采集以下数组:文章标题、时间、来源和正文(正文中的所有文本,将合并到一个excel单元格中,将使用到“自定义数据合并方法”功能,请你们注意)。同时,采集文章正文中的文本+图片URL,将用到“判断条件”,“判断条件”的使用,有很多须要注意的地方。以下两个教程,大家可先熟悉一下。

  “自定义数据合并方法”详解教程:

  orialdetail-1/zdyhb_7.html

  “判断条件”详解教程:

  orialdetail-1/judge.html

  采集网站:

  使用功能点:

  分页列表信息采集

  orial/fylb-70.aspx?t=1

  Xpath

  rch?query=XPath

  AJAX点击和翻页

  orial/ajaxdjfy_7.aspx?t=1

  判断条件

  orialdetail-1/judge.html

  AJAX滚动

  orialdetail-1/ajgd_7.html

  步骤1:创建采集任务

  1)进入主界面,选择“自定义模式”

  微信热门文章采集方法步骤1

  2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

  微信热门文章采集方法步骤2

  步骤2:创建翻页循环

  在页面右上角,打开“流程”,以诠释出“流程设计器”和“定制当前操作”两个蓝筹股。网页打开后,默认显示“热门”文章。下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中,选择“更多操作”

  微信热门文章采集方法步骤3

  选择“循环点击单个元素”,以创建一个翻页循环

  微信热门文章采集方法步骤4

  由于此网页涉及Ajax技术,我们须要进行一些中级选项的设置。选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”

  微信热门文章采集方法步骤5

  注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部份进行更新。

  表现特点:a、点击网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线