连续操作: 自动选择下拉菜单采集数据-以HowNet为例
优采云 发布时间: 2020-08-07 16:11注意: 从GooSeeker采集器的V9.0.2版本开始,采集器术语“主题”已更改为“任务”. 在采集器浏览器中,首先命名任务,然后创建规则,然后登录到Jisuke官方网站的成员中心. 在“任务管理”中,您可以查看任务采集和执行,管理线程URL以及进行计划设置.
I. 操作步骤
以CNKI期刊为例,显示连续动作中的选择动作和爬虫路径中的翻页的组合. 本教程要实现的是首先搜索2016年出版的期刊,然后采集搜索结果. 该过程如下图所示:
为了实现这一点,需要建立两个级别的规则. 第一层规则通过连续的操作自动选择出版年份,第二层规则负责采集期刊内容和翻页. 步骤如下:
两个,案例规则+操作步骤
第一步: 定义捕获内容的第一级规则
1.1,加载页面
打开Jishouke Web采集器,输入要采集的样本的URL,然后按Enter. 看到浏览器加载网页后,单击右上角的“定义规则”.
注意: 此处的屏幕快照和文字描述均为Jishouke Web采集器的所有版本. 如果要安装Firefox插件版本,则没有“定义规则”按钮,但是您应该运行MS.
1.2,输入主题名称
在工作台的“主题名称”中输入一级规则的主题名称,然后单击“检查重复项”,将提示“可以使用该名称”,您可以继续,否则请重命名它. 此处的命名主题为“检索CNKI期刊之前”.
提示: 尽管此级别的规则主要用于选择操作,但是为了确保页面已加载并且连续的操作可以顺利进行,通常会在此级别的规则中建立一些爬网内容.
1.3,内容映射
选择“日志”作为爬网内容,双击日志,在弹出的标签栏中输入关键内容,在检索前命名排序框,然后检查关键内容. 视觉注释的基本操作在此不再重复. 如果您不了解,请参阅教程“采集网页数据”.
第2步: 定义一级规则的连续动作
2.1,输入目标主题名称
单击“连续操作”工作台,输入目标主题名称(即第二级规则的主题名称,此处名为“检索中国CNKI期刊后”),然后单击“正在使用谁” ,弹出窗口不显示该消息表明主题名称未被占用,您可以继续以下操作,否则需要更改主题名称.
2.2,创建第一个连续动作-选择起始年份2016
2.2.1,找到定位表达式,填写动作名称
单击“新建”,将操作类型选择为“选择”,单击开始年份,它将自动找到相应的节点,选择“显示XPath: 首选项ID”,程序将自动显示相应的Xpath路径,然后单击搜索,您可以看到此路径可以找到唯一的节点,该节点可用作动作的定位表达式. 将此路径复制到定位表达式,并在操作名称中写入文本,以使阐明每个操作的用法更加容易.
提示: 选择类型的连续动作. 定位表达式必须写入下拉菜单的选择节点,而不是某个选项的选项节点,否则将在运行时报告错误.
2.2.2,高级设置
我们需要实现的是采集2016年出版的期刊,因此我们需要在开始年度和结束年度都选择2016年. 这需要对连续操作的高级设置进行限制.
2.3,创建第二个连续的行动结束年度选择2016
单击“新建”,然后将操作类型选择为“选择”. 请参阅步骤2.2,找到与结束年份相对应的Xpath路径,然后在高级设置中将额外延迟设置为2秒,起点为3(2016是第三选项),跨度为100.
2.4,创建第三个连续动作,单击以进行检索
单击“新建”,然后选择“提交”操作. 请参阅步骤2.2,找到与“搜索”相对应的Xpath路径,然后在高级设置中将额外延迟设置为2秒.
2.5,保存规则
点击“保存规则”按钮以保存已完成的一级规则.
第3步: 定义第二级规则以捕获内容
3.1,创建新规则
单击“定义规则”返回到正常的网页模式,选择2016并单击搜索以找到文档结果,再次单击“定义规则”以切换到规则模式,然后单击左上角的“规则”菜单->“新建”,弹出提示“工作台上有内容,清除了吗?”,单击确定.
输入主题名称,其中主题名称是在上级规则的连续操作中填写的目标主题名称,即“在检索CNKI日记帐之后”,单击“检查重复项”,并弹出提示“名称已保留. ”可编辑: 是”,表示可以使用此主题名称.
3.2,标记要采集的信息
在页面上,直接单击要采集的内容,在弹出窗口中填写名称,勾选“标题”的关键内容,然后复制示例. 单击测试预览采集的内容. 在此不再重复视觉标签的详细描述. 有关详细信息,请参阅教程“集合列表数据”.
第4步: 定义二级规则页面的转换线索
4.1,设置翻页线索
单击爬虫路线,单击“新建”,选择“标记提示”;找到与页面翻页标记“ Next Page”相对应的节点,右键单击Cue Mapping-Marker Cue;查找整个翻页区域并具有一个类值或具有id值的节点,右键单击线索mapping-location-clue 1.在此不重复设置翻页的操作. 有关详细信息,请参阅教程“设置翻页集合”.
4.2,保存规则
点击“保存规则”按钮以保存已完成的第二级规则.
第5步: 捕获数据
连续动作的两级规则是连续执行的,因此只需要运行第一级规则,动作完成后程序将自动调用第二级规则. 如果直接运行第二级规则,则会出现错误,因为打开操作之前的初始页面.
5.1,打开计数机,找到一级规则的主题名称,单击“单一搜索”或“采集”,您会看到计数机Web窗口将自动选择2016,并继续向下翻页.
5.2,打开第二级主题的文件夹以查看结果数据,并将所选项目记录在xml文件的actionvalue字段中,以使其可以与结果数据一一对应.
上一篇: “连续操作: 自动搜索关键字以采集信息”下一篇文章: “连续操作: 滚动以采集瀑布流网页”
如果有任何疑问,可以或