事实:连续动作:自动搜索关键词采集信息—以京东为例
优采云 发布时间: 2022-10-24 15:37配套软件版本:V9及更低版本即搜客网络爬虫软件
新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为“自动输入关键词采集搜索结果信息-以人民网搜索为例子”
注:从Jisouke GooSeeker爬虫V9.0.2版本开始,爬虫术语“topic”已更改为“task”。在爬虫浏览器中,先命名任务然后创建规则,然后登录吉索克官网会员中心的“任务管理”。",可以查看采集任务的执行状态,管理线程URL,进行调度设置。
一、操作步骤
如果网页上有搜索框,但是搜索结果页面没有独立的URL,想要采集搜索结果,直接套用规则是不可能采集的。您必须首先执行连续操作(输入 + 单击)才能实现此目的。自动输入 关键词 并在 采集 数据之前搜索。下面以京东搜索为例演示自动搜索采集,操作步骤如下:
2.案例规则+操作步骤
注意:在这种情况下,京东搜索有独立的URL。对于具有独立URL的页面,最简单的方法是构造每个关键词的搜索URL,然后将线索URL导入到规则中,可以批量关键词@采集,而不是设置连续动作,可以参考“如何构造URL”和“如何管理规则线索”。
第一步:定义一级规则
1.1 打开Jisouke网络爬虫,输入网址回车,加载网页后点击“定义规则”按钮,会出现一个浮动窗口,称为工作台,在上面定义规则;
注意:这里的截图和文字说明是Jisoke网络爬虫版本。如果你安装的是火狐插件版,那么就没有“定义规则”按钮,但是你应该运行MS Moujiu
1.2 在工作台中输入一级规则的主题名称,然后点击“检查重复项”,会提示“此名称可以使用”或“此名称已被占用,可编辑:是”,即可使用此主题名称,否则,请重复名称。
1.3 本层的规则主要是设置连续动作,所以排序框可以随意抓取一条信息,并以此判断是否为爬虫执行采集。双击网页上的信息,输入标签名称,勾选确认,然后勾选关键内容,输入第一个标注的排序框名称,完成标注映射。
温馨提示:为了准确定位网页信息,点击定义规则会冻结整个网页,不能跳转到网页链接。再次单击定义规则,返回正常网页模式。
第 2 步:定义连续动作
单击工作台的“Continuous Action”选项卡,然后单击“新建”按钮以创建新的操作。每个动作的设置方法都是一样的。基本操作如下:
2.1、输入目标主题名称
这里的目标主题名称是填写二级主题名称,点击“谁在使用”查看目标主题名称是否可用,如果已经被占用,只需更改主题名称
2.2、创建第一个动作:输入
创建一个新动作并选择动作类型作为输入。
2.2.1、填写定位表达式
首先点击输入框,定位到输入框的节点,然后点击“Auto Generate XPath”按钮,可以选择“Preference id”或者“Preference class”,就可以得到输入框的xpath表达式,然后点击“搜索”按钮,检查xpath能否唯一定位输入框,如果没有问题,将xpath复制到定位表达式框。
注意:定位表达式中的xpath是锁定action对象的整个有效操作范围,具体是指鼠标可以点击或输入成功的网页模块,不要定位底部的text()节点。
2.2.2、输入关键词
输入关键词填写你要搜索的关键词,可以输入一个关键词,可以输入多个关键词,输入多个关键词加双分号;;分隔每个关键词,免费版只支持关键词5以内,旗舰版可以使用连发弹匣功能,支持关键词10000以内
2.2.3、输入动作名称
告诉自己这一步是做什么用的,以便以后修改。
2.3、创建第二个动作:点击
参考2.2中的操作,创建第二个action,选择类型为click,定位到搜索按钮,然后自动生成一个xpath,检查是否锁定到唯一节点。如果没有问题,只需填写定位表达式即可。
2.4、保存规则
点击“保存规则”按钮保存完成的一级规则
第三步:定义二级规则
3.1、新规则
创建二级规则,点击“定义规则”返回普通网页模式,输入关键词搜索结果,再次点击“定义规则”切换到规则制定模式,点击左上角“规则”菜单->“新建”,输入主题名称,其中主题名称为一级规则连续动作填写的目标主题名称。
3.2、标记你要的信息采集
3.2.1、在网页上标记你要采集的信息,这里是标记产品名称和价格,因为标记只对文本信息有效,产品详情的链接是属性节点@href,因此无法标记链接。做这么直观的标注,但是做内容映射,具体看下面的操作。
3.2.2、点击商品名称,定位到A标签下方的DOM节点,展开A标签下的属性节点,可以找到代表URL的@href节点,右键该节点,选择“新建抓取内容” 》,然后输入一个名字,一般给抓取的内容取一个与地址相关的名字,比如“下级URL”,或者“下级链接”等。然后在工作台上,我看到这个抓取的内容是可用的。如果还想进入商品详情页面采集,则需要查看下属线索对该抓取的内容进行分层抓取。
3.2.3、设置“Key Content”选项,让爬虫判断采集规则是否合适。在排序框中,选择网页上一定要找到的标签,勾选“关键内容”。这里选择“名称”作为“关键内容”。
3.2.4,如果您只在前面标记一个产品,您还可以获得一个产品信息。如果您想采集 整个页面上的每个产品,您可以复制示例。不明白的请参考基础教程《采集列出数据》
3.3、设置翻页路线
在爬虫路由中设置翻页,这里是标记线索,不明白的可以参考基础教程《设置翻页采集》
3.4、保存规则
单击“测试”以检查信息的完整性。如果不完整,重新标注可以覆盖之前的内容。确认没有问题后,点击“保存规则”。
第 4 步:获取数据
4.1、连续动作是连续执行的,所以只要一级主题运行,二级主题就不需要运行。打开DS计数器,搜索一级主题名称,点击“单次搜索”或“采集”,可以看到浏览器窗口会自动输入关键词进行搜索,然后是二级主题将被称为自动 采集 搜索结果。
4.2、一级主题没有采集到有意义的信息,所以我们只看二级主题的文件夹就可以看到采集的搜索结果数据,搜索到的关键词是By默认记录在xml文件的actionvalue字段中,以便一一匹配。
第 1 部分 文章:“连续动作概念:掌握 JS 动态网页信息采集” 第 2 部分 文章:“连续动作:自动选择下拉菜单 采集 数据”
如有疑问,您可以或
解决方案:通过搜索词挖掘关键词,关键词挖掘工具
关键词和搜索词是我们经常混淆的SEO词。虽然关键词和搜索词之间有很多相似之处,但它们不是一回事,关键词和搜索词的区别主要是从使用的角度出发,用户使用搜索词进行答案搜索,SEO通过关键词优化排名,使用户更容易发现我们。
什么是关键词
关键词是我们SEO和SEO的基础。关键词不能是单字,也可以是短关键词,如“天鹅绒沙发”或“绿色沙发”。精准关键词能给我们带来精准的流量,实现高质量的流量转化。那么,如何找到关键词呢?我们使用SEO工具进行关键词研究。
通过挖掘搜索引擎下拉词并匹配相关词,我们可以从用户的搜索痕迹中分析出用户正在搜索且备受关注的长尾词,一键将其导出到当地,并通过结合网站自身情况和特点,分析出有利于网站关键词。
什么是搜索词
搜索词有时可能收录关键词,但它们无论如何都不是一回事。搜索词是我们在使用的搜索引擎中键入的一系列单词,以便我们可以找到所需的结果。
搜索词可以用许多不同的方式表示,并导致相同的结果。例如,我们可以搜索“在我附近买沙发”,而其他人可以搜索“在我附近哪里买沙发”。搜索词还可能收录拼写错误,搜索引擎通常会自动更正这些错误。
关键词和搜索字词不同
关键词和搜索词在通常由谁使用方面有所不同。例如,SEOERS使用关键词来确保他们可以获得更好的自然搜索结果。正如我们之前提到的,关键词是搜索引擎优化的一部分,对普通搜索者来说意义不大。
这是因为普通人在搜索栏中输入搜索词时只想看到相关结果。他们很少考虑SEO,导致他们位于搜索结果页面顶部的页面,大多数人都没有意识到SEO的内部运作。另一方面,搜索词经常被SEO方面的人们使用,这并不意味着它们对SEOER没有用处。事实上,了解常见的搜索词是确保我们进行准确关键词研究的方法之一。
如果我们想创建一个关键词来定位它们,我们将使用它们的共同点,即“天鹅绒沙发”。这可能是我们SEO活动的优化之一,以确保我们可以改善自然搜索结果并为我们的家具业务带来更多流量。
使用搜索词挖掘关键词
关键词排名和我们从事的业务之间存在差异。许多网站可能在各自的搜索结果页面中排名靠前,但他们可能没有选择正确的关键词,这意味着他们的转化率较低。
我们还可以看到每个搜索词的排名。如果我们对不属于SEO的搜索词排名很高,那么我们可能希望将它们合并到我们的关键词中,以便我们可以充分利用它。
只需开始在搜索栏中键入其中一个查询,搜索引擎就会向我们显示一些我们可能希望纳入SEO的相关搜索。确保我们的关键词策略不会过于分散,以确保我们在SEO工作中获得可观的回报。
尝试定位大量关键词是很诱人的,但并非所有这些关键词都会导致高转化率。事实上,如果我们注意到某个特定的搜索词没有产生我们想要的结果。因此,我们分析关键词搜索字词一旦我们了解了受众,就更容易确保我们的关键词符合他们的兴趣。