不用采集规则就可以采集(京东搜索为例设置连续动作点击工作台规则+操作步骤*)

优采云发布时间: 2021-12-20 11:17

　　一、操作步骤

　　如果网页上有搜索框，但是搜索结果页没有单独的网址，而且如果要采集搜索结果，不能直接做规则采集，你必须做一个连续的动作（输入+点击）才能实现回车关键词并自动搜索，然后就可以采集数据了。下面以京东搜索为例，演示自动搜索采集。操作步骤如下：

　　二、案例规则+操作步骤

　　**注：**在这种情况下，京东搜索有独立的网址。对于有独立网址的页面，最简单的方法是构造每个关键词搜索网址，然后将线索网址导入到规则中。您可以批处理采集而不是设置连续动作

　　步骤 1：定义第一级规则

　　1.1 打开极手客网络爬虫，输入网址回车，加载网页后点击“定义规则”按钮，会看到一个浮动窗口，称为工作台，在上面可以定义规则;

　　注：此处截图及文字说明均为极手客网络爬虫版。如果你安装的是 Firefox 插件版本，则没有“定义规则”按钮，但你应该运行 MS Muse。

　　1.2 在工作台中输入一级规则的主题名称，然后点击“检查重复”，会提示“名称可以使用”或“名称已被占用，可编辑：是”，您可以使用此主题名称，否则请重命名。

　　1.3 这一层的规则主要是设置连续动作，这样排序框就可以随意抓取一条信息，用它来判断是否为爬虫执行采集。双击网页上的信息，输入标签名称，勾选确认，然后勾选关键内容，输入第一个标签的排序框名称，标签映射完成。

　　温馨提示：为了准确定位网页信息，点击定义规则会冻结整个网页，无法跳转到网页链接。再次点击定义规则，返回正常网页模式。

　　步骤 2：定义连续动作

　　单击工作台的“Continuous Action”选项卡，然后单击“New”按钮创建一个新动作。每个动作的设置方法都是一样的。基本操作如下：

　　2.1、输入目标学科名称

　　这里的目标主题名称是填写二级主题名称，点击“谁在使用”查看目标主题名称是否可用，如果已经被占用，只需更改一个主题名称

　　2.2、创建第一个动作：回车

　　创建一个新动作并选择动作类型作为输入。

　　2.２.1、填写定位表达式

　　首先点击输入框，定位输入框的节点，然后点击“Auto Generate XPath”按钮，可以选择“Preference id”或者“Preference class”，就可以得到输入框的xpath表达式，然后点击“搜索”按钮，检查这个xpath是否可以唯一定位输入框，如果没有问题，将xpath复制到定位表达式框。

　　**注：**定位表达式中的xpath是锁定动作对象的整个有效操作范围，具体指的是可以被鼠标点击或输入成功的网页模块，不定位文本() 节点位于底部。

　　2.2.2、输入关键词

　　输入关键词填写你要搜索的关键词，可以输入一个关键词，也可以输入多个关键词，输入多个关键词即可使用双分号;; 将每个关键词分开，免费版只支持5个以内的关键词，旗舰版可以使用连发弹匣功能，支持10000个以内的关键词

　　2.2.3、输入动作名称

　　告诉自己这一步是做什么的，以便你以后可以修改它。

　　2.3、创建第二个动作：点击

　　参考2.2的操作，创建第二个action，选择类型为click，定位搜索按钮，然后自动生成xpath检查是否锁定到唯一节点，并填写定位表达没有问题的话。

　　2.4、保存规则

　　点击“保存规则”按钮保存完成的一级规则

　　步骤 3：定义二级规则

　　3.1、新建规则

　　创建二级规则，点击“定义规则”返回正常网页模式，输入关键词搜索结果，再次点击“定义规则”切换到规则制定模式，点击“规则”菜单->“左上角新建”，输入主体名称，其中主体名称为一级规则连续动作中填写的目标主体名称。

　　3.2、标记你想要的信息采集

　　3.2.1、在网页上标记你想要的信息采集，这里是产品名称和价格的标记，因为标记只对文本信息有效，链接到商品详情是一个属性节点@href，所以，你不能在链接上做这样的视觉标记，但是要做内容映射，具体看下面的操作。

　　3.2.2、点击产品名称，下方的DOM节点定位到A标签，展开A标签下的属性节点，可以找到代表URL的@href节点，右击节点，选择“新建“抓取内容”，输入名称，一般给抓取的内容取一个和地址相关的名字，比如“下级网址”，或者“下级链接”等等。然后在工作台上，我看到说明爬取的内容是可用的，如果还想进入商品详情页采集，必须对照爬取的内容检查下层线索，进行分层爬取。

　　3.2.3、设置“关键内容”选项，让爬虫判断采集规则是否合适。在排序框中，选择网页上不可避免的标签，并勾选“关键内容”。这里，“名称”被选为“关键内容”。

　　3.2.4、如果你只在前面标记一个产品，你可以得到一个产品信息。如果你想采集把整个页面的每一个产品都下下来，可以做一个样例Copy，如果看不懂，请参考基础教程《采集List Data》

　　3.3、设置翻页路线

　　在爬虫路由设置翻页中，这里有一个标记提示，不明白的请参考基础教程《设置翻页采集》

　　3.4、保存规则

　　单击“测试”以检查信息的完整性。如果不完整，重新标记可以覆盖之前的内容。确认没有问题后，点击“保存规则”。

　　第 4 步：抓取数据

　　4.1，连续动作是连续执行的，所以只要运行一级主题，二级主题就不需要运行。打开DS计数器，搜索一级话题名称，点击“单一搜索”或“采集”，可以看到在浏览器窗口中自动输入搜索关键词，然后是二级话题被称为自动采集搜索结果。

　　4.2，一级主题没有采集到有意义的信息，所以我们只看二级主题文件夹，可以看到采集的搜索结果数据，搜索关键词默认记录在xml文件的actionvalue字段中，这样可以一一匹配。

0

2021-12-20

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(京东搜索为例设置连续动作点击工作台规则+操作步骤*)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(京东搜索为例设置连续动作点击工作台规则+操作步骤*)

0 个评论

发起人

相关问题