要使用优采云采集器,就足够了

优采云 发布时间: 2020-08-06 22:07

  有些朋友可能不认识优采云采集器,请再次介绍一下: 优采云采集器是一个Google插件,可以轻松获取网页上的内容: 文本,链接,图片,表格等,而无需编写一行代码.

  优采云采集器具有以下优点-

  免费

  不受操作系统限制,只需安装Chrome浏览器或Chrome内核浏览器即可运行,例如360浏览器,QQ浏览器

  操作简单,易于使用. (许多没有技术背景的学生都可以快速学习)

  强大的功能: 不仅可以抓取静态网页,还可以轻松抓取js动态加载的数据

  自动识别: 大多数网页的主要内容都可以自动识别

  根据经过测试的经验,可以爬网以下类型的网站-

  优采云,京东,美团,连家,赣济等.

  微信公众号,建树,国美,智虎,博客等.

  淘宝,阿里巴巴,苏宁网,网易燕轩等.

  基本上可以捕获在浏览器中可以查看的数据.

  首先,常见问题

  1. 我下载了优采云采集器插件安装包,但是如果无法安装该怎么办?

  如果您尚未接触过插件的使用和安装,那么您很茫然,没关系,您可以在以下链接的插件安装教程中查看各种浏览: / zh -cn / advanced / framework.html?id = title-Introi如何安装设备.

  例如,在Google下载之后,将插件安装包拖到chrome: // extensions /页面并按照提示进行安装.

  2. 安装了优采云采集器后,如何使用?

  一些学生,优采云采集器安装成功,然后您将在浏览器右侧看到已安装的优采云采集器图标,然后单击鼠标左键->单击Login->跳转到登录名界面,登录后,您可以在主页上输入要采集的URL,然后单击“ 优采云 采集”按钮配置要采集的URL. 如下图所示:

  

  

  3. 打开配置页面后,如果我要采集的信息没有被自动识别怎么办?

  例如,我想采集支持教育网络的招聘信息,但是单击优采云的集合后出现的配置页面会自动识别部门类别,如下所示:

  

  这时,您需要清除字段,然后将页面类型从自动采集更改为手动标识列表,然后单击页面元素,

  

  

  提醒: ! !每当您再次手动标识列表时,都需要重新选择页面类型: 手动标识列表;另外,使用它的方法是单击页面上列表下两个不同单元的元素以标识列表;

  4. 数据的页面很多,但是为什么只有第一页被爬网时它才能结束?

  配置完成后,您可能忘记检查是否成功识别了页面类型的状态栏. 您必须检查每个配置之后是否成功识别了下一页. 正常识别成功后,“下一步”按钮将更改颜色. ,标签类型列将显示标签的自动识别

  

  5. 如果采集的网站正在滚动加载,该怎么办?

  这非常简单,只需修改配置页面的分类类型配置即可滚动加载:

  

  6. 如果采集的网站不仅滚动,而且单击加载,该怎么办?

  学生,这时,我们需要采集并配置内部工件以解决我们的问题. 例如,我在采集短书时遇到了类似的问题. 短书首页的功能是在滚动到最底之前先滚动几次. 然后将有一个按钮单击以加载课程. 解决此类问题的过程是:

  单击预操作->单击以滚动页面->设置滚动数和滚动间隔(根据调试的具体数目设置)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线