连续动作: 滚动屏幕以采集瀑布流网页-以标题为例

优采云发布时间: 2020-08-09 06:22

　　注意: 从GooSeeker采集器的V9.0.2版本开始，采集器术语“主题”已更改为“任务”. 在采集器浏览器中，首先命名任务，然后创建规则，然后登录到Jisuke官方网站的成员中心. 在“任务管理”中，您可以查看任务采集和执行，管理线程URL以及进行计划设置.

　　大多数常见网页在页面底部都有翻页按钮，例如“下一页”和“加载更多”. 可以将这种类型的网页设置为翻页，但是瀑布式网页没有这些按钮. 鼠标滚动时，将连续加载更多内容. 这种没有翻页按钮的超长网页就是瀑布式网页.

　　采集器只能采集已加载并显示在网页上的内容，而瀑布式网页的内容不会立即加载. 每次滚动屏幕都会显示更多内容，因此需要滚动操作来采集瀑布图网页.

　　I. 操作步骤

　　以下以Toutiao.com为例，向您展示如何使用滚动动作来采集瀑布流网页. 步骤如下:

　　提示: 本文介绍的滚动动作与滚轮动作不同. 滚动等效于滚动网页的最右边的滚动条. 并且滚轮模拟鼠标滚轮的滚动，因此滚轮动作可以满足一些特殊需求，如下所示: </p

p两个，案例规则+操作步骤/p

p第1步: 打开网页/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112245f7e8bo8noxkynev3.png' alt=''//p

p1.1打开加载网页后，打开Jishouke Web采集器，输入URL并按Enter，然后单击“定义规则”按钮，您将看到一个显示的浮动窗口，称为工作台，在该窗口上定义了规则； /p

p注意: 此处的屏幕截图和文字描述均为Jishouke的网络采集器版本. 如果安装了Firefox插件版本，则没有“定义规则”按钮，但是您应该运行MS Muse./p

p1.2. 在工作台中输入主题名称，然后单击“检查重复项”，提示“可以使用该名称”或“该名称已被占用并且可以编辑: 是”，则可以使用主题名称，否则请使用重试名称./p

p提示: 为了准确定位网页信息，单击定义规则将冻结整个网页，并且无法跳转到网页链接. 再次单击定义规则将返回到正常的网页模式./p

p第2步: 标记信息/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112245z4pou3ucfejnnoub.png' alt=''//p

p2.1对网页的文本信息进行注释. 双击目标信息将其选中，在弹出窗口中输入标签名称，然后勾选以确认或输入. 对于第一个标签，输入整理框的名称，这是存储数据的表的名称. 这也是在标签和网页信息之间建立映射关系的过程./p

p2.2由于链接是属性节点，而不是文本节点，因此无法直接在页面上进行标记，因此您需要手动映射内容，单击页面标题，找到页面标签节点A，展开并找到@href节点，右键单击@href并选择内容映射-链接./p

p2.3检查“标题”的“关键内容”，通常检查必须显示的信息的关键内容，该信息用于判断是否对爬虫进行采集以防止不完全的数据捕获./p

p第3步: 复制示例/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244du9xuuhl71eppops.png' alt=''//p

p3.1样本副本设置用于捕获页面上具有相同结构的所有信息. 首先选择容器节点“新闻列表”，选中“启用”，然后在新闻列表中找到第一条新闻和第二条新闻. 将节点映射到示例1和示例2. 有关详细操作，请参见文章“采集列表数据”. “./p

p第4步: 设置连续动作滚动/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244q5bitg5bfttsownb.png' alt=''//p

p4.1在连续动作工作台中创建一个新的滚动动作. 由于滚动后网页的结构没有更改，因此仍然可以被当前规则采集，因此此处的目标使用者名称是当前规则本身的使用者名称./p

p4.2可以根据需要调整滚动动作的参数. 滚动操作的高级设置通常保留为默认设置. 滚动参数说明如下:/p

p注意: 如果设置了滚动操作，则DS计数器必须具有以下两项设置:/p

p（1）必须关闭DS计数器的自动滚动功能/p

pimg src='http://www.gooseeker.com/doc/data/attachment/portal/201701/04/112244gp2ctpstr2gece7r.png' alt=''//p

p因为DS计数机的自动滚动将使爬行器一口气滚动到底部，但是真正的瀑布无法滚动到底部，并且滚动动作是滚动并抓住，所以如果不转动关闭自动滚动，将不会执行滚动动作. 设置方法: 单击DS计数器的配置菜单->滚动参数，然后将滚动数设置为0以关闭自动滚动.

　　（2）根据需要设置重复的内容强制中断

　　DS计数器一直在尝试向下滚动，并且必须告知何时停止. 在MS计数器的滚动操作中，可以使用滚动总数来限制要停止的屏幕数.

　　如果滚动屏幕总数设置为-1，则滚动屏幕不会停止. 这时，您必须在DS计数器上打开重复的内容，以便在采集器发现重复的内容时，它将停止滚动操作. 设置方法: 单击DS计数器的高级菜单->端点标记->检查重复内容.

　　第5步: 保存规则并捕获数据

　　5.1单击“测试”，查看输出结果是否正常，表明规则正确并且可以使用，然后单击“保存规则”以保存规则，然后单击“爬网数据”以采集数据.

　　5.2您将发现已捕获许多xml文件. 这是因为瀑布式网页在滚动时会被爬网，因此只需保留最大的xml文件.

　　三，新功能

　　无尽的瀑布网页将随着滚动内容无限增长，从而导致由于内存不足而导致抓取工具崩溃. 新版本的Jishou Web采集器（V8.3.1）添加了清除旧内容的功能. 有关详细信息，请参阅教程“使用wish之类的瀑布网站时爬行使用清除旧数据的功能”

　　上一篇文章: “连续操作: 自动选择下拉菜单以采集数据”下一篇文章: “将信息与连续操作步骤相关联”

　　如果有任何疑问，可以或

0

2020-08-09

如何文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

连续动作: 滚动屏幕以采集瀑布流网页-以标题为例

0 个评论

发起人

AI时代内容工厂

连续动作: 滚动屏幕以采集瀑布流网页-以标题为例

0 个评论

发起人

相关问题