连续动作: 滚动屏幕以采集瀑布流网页-以标题为例

优采云 发布时间: 2020-08-09 06:22

  注意: 从GooSeeker采集器的V9.0.2版本开始,采集器术语“主题”已更改为“任务”. 在采集器浏览器中,首先命名任务,然后创建规则,然后登录到Jisuke官方网站的成员中心. 在“任务管理”中,您可以查看任务采集和执行,管理线程URL以及进行计划设置.

  大多数常见网页在页面底部都有翻页按钮,例如“下一页”和“加载更多”. 可以将这种类型的网页设置为翻页,但是瀑布式网页没有这些按钮. 鼠标滚动时,将连续加载更多内容. 这种没有翻页按钮的超长网页就是瀑布式网页.

  采集器只能采集已加载并显示在网页上的内容,而瀑布式网页的内容不会立即加载. 每次滚动屏幕都会显示更多内容,因此需要滚动操作来采集瀑布图网页.

  I. 操作步骤

  以下以Toutiao.com为例,向您展示如何使用滚动动作来采集瀑布流网页. 步骤如下:

  

  提示: 本文介绍的滚动动作与滚轮动作不同. 滚动等效于滚动网页的最右边的滚动条. 并且滚轮模拟鼠标滚轮的滚动,因此滚轮动作可以满足一些特殊需求,如下所示: </p

p两个,案例规则+操作步骤/p

p第1步: 打开网页/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112245f7e8bo8noxkynev3.png' alt=''//p

p1.1打开加载网页后,打开Jishouke Web采集器,输入URL并按Enter,然后单击“定义规则”按钮,您将看到一个显示的浮动窗口,称为工作台,在该窗口上定义了规则; /p

p注意: 此处的屏幕截图和文字描述均为Jishouke的网络采集器版本. 如果安装了Firefox插件版本,则没有“定义规则”按钮,但是您应该运行MS Muse./p

p1.2. 在工作台中输入主题名称,然后单击“检查重复项”,提示“可以使用该名称”或“该名称已被占用并且可以编辑: 是”,则可以使用主题名称,否则请使用重试名称./p

p提示: 为了准确定位网页信息,单击定义规则将冻结整个网页,并且无法跳转到网页链接. 再次单击定义规则将返回到正常的网页模式./p

p第2步: 标记信息/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112245z4pou3ucfejnnoub.png' alt=''//p

p2.1对网页的文本信息进行注释. 双击目标信息将其选中,在弹出窗口中输入标签名称,然后勾选以确认或输入. 对于第一个标签,输入整理框的名称,这是存储数据的表的名称. 这也是在标签和网页信息之间建立映射关系的过程./p

p2.2由于链接是属性节点,而不是文本节点,因此无法直接在页面上进行标记,因此您需要手动映射内容,单击页面标题,找到页面标签节点A,展开并找到@href节点,右键单击@href并选择内容映射-链接./p

p2.3检查“标题”的“关键内容”,通常检查必须显示的信息的关键内容,该信息用于判断是否对爬虫进行采集以防止不完全的数据捕获./p

p第3步: 复制示例/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244du9xuuhl71eppops.png' alt=''//p

p3.1样本副本设置用于捕获页面上具有相同结构的所有信息. 首先选择容器节点“新闻列表”,选中“启用”,然后在新闻列表中找到第一条新闻和第二条新闻. 将节点映射到示例1和示例2. 有关详细操作,请参见文章“采集列表数据”. “./p

p第4步: 设置连续动作滚动/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244q5bitg5bfttsownb.png' alt=''//p

p4.1在连续动作工作台中创建一个新的滚动动作. 由于滚动后网页的结构没有更改,因此仍然可以被当前规则采集,因此此处的目标使用者名称是当前规则本身的使用者名称./p

p4.2可以根据需要调整滚动动作的参数. 滚动操作的高级设置通常保留为默认设置. 滚动参数说明如下:/p

p注意: 如果设置了滚动操作,则DS计数器必须具有以下两项设置:/p

p(1)必须关闭DS计数器的自动滚动功能/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244gp2ctpstr2gece7r.png' alt=''//p

p因为DS计数机的自动滚动将使爬行器一口气滚动到底部,但是真正的瀑布无法滚动到底部,并且滚动动作是滚动并抓住,所以如果不转动关闭自动滚动,将不会执行滚动动作. 设置方法: 单击DS计数器的配置菜单->滚动参数,然后将滚动数设置为0以关闭自动滚动.

  (2)根据需要设置重复的内容强制中断

  

  DS计数器一直在尝试向下滚动,并且必须告知何时停止. 在MS计数器的滚动操作中,可以使用滚动总数来限制要停止的屏幕数.

  如果滚动屏幕总数设置为-1,则滚动屏幕不会停止. 这时,您必须在DS计数器上打开重复的内容,以便在采集器发现重复的内容时,它将停止滚动操作. 设置方法: 单击DS计数器的高级菜单->端点标记->检查重复内容.

  

  第5步: 保存规则并捕获数据

  

  5.1单击“测试”,查看输出结果是否正常,表明规则正确并且可以使用,然后单击“保存规则”以保存规则,然后单击“爬网数据”以采集数据.

  5.2您将发现已捕获许多xml文件. 这是因为瀑布式网页在滚动时会被爬网,因此只需保留最大的xml文件.

  三,新功能

  无尽的瀑布网页将随着滚动内容无限增长,从而导致由于内存不足而导致抓取工具崩溃. 新版本的Jishou Web采集器(V8.3.1)添加了清除旧内容的功能. 有关详细信息,请参阅教程“使用wish之类的瀑布网站时爬行使用清除旧数据的功能”

  上一篇文章: “连续操作: 自动选择下拉菜单以采集数据”下一篇文章: “将信息与连续操作步骤相关联”

  如果有任何疑问,可以或

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线