怎样抓取网页数据(优采云·云采集服务平台如何抓取网易新闻的网站数据(涉及Ajax技术))

优采云 发布时间: 2022-04-19 22:31

  怎样抓取网页数据(优采云·云采集服务平台如何抓取网易新闻的网站数据(涉及Ajax技术))

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据(涉及Ajax技术)

  随着互联网数据的爆炸式增长,我们的工作是有效地从这些数据中获取、分析和产生价值。那么,首先要思考的问题是:如何捕获网站 数据?

  今天分享的是一个完整的使用web数据采集器-优采云,采集网站数据的例子。采集网站的目标是网易新闻。观察发现,打开网易新闻的网站后,下拉页面,会发现页面正在加载新数据。分析表明,这个网站涉及到Ajax技术,需要在优采云中设置一些高级选项,需要特别注意。详情可以到优采云官网学习AJAX滚动教程。

  采集网站:

  下载示例规则:

  #_rnd79

  第 1 步:创建一个 采集 任务

  1)进入主界面选择,选择自定义模式

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图1

  2)将上述网址的网址复制粘贴到网站输入框,点击“保存网址”

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图2

  3)保存URL后会在优采云采集器中打开页面,红框内的信息就是这个demo的内容要采集

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图3

  第二步:设置ajax页面加载时间

  ? 设置打开网页步骤的ajax滚动加载时间

  1)页面打开后,下拉页面会发现页面有新数据正在加载

  如何抓取网易新闻的网站数据 图4

  因此需要进行如下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载时向下滚动”,设置滚动次数,每次滚动的间隔,一般设置为2秒,本页的滚动方式,选择直接滚动到底部;最后点击确定

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图5

  注意:这里需要为网站设置滚动的次数和间隔,测试方法可以参考优采云7.0教程-AJAX滚动教程

  第三步:采集列出内容

  ? 勾选需要在采集列表中的新闻框,创建数据提取列表

  1)移动鼠标选中图片中的新闻信息框。右击,采集的内容会变成绿色

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图6

  注:点击右上角的“流程”按钮,显示可视化流程图。

  2)系统会识别新闻信息框中的子元素。在操作提示框中,选择“选择子元素”

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图7

  3)系统会自动识别页面上其他类似的元素。在操作提示框中,选择“全选”创建列表循环

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图8

  注意:当一个字段被选中时,当鼠标放在该字段上时会出现一个删除图标,点击删除该字段。

  如何抓取网易新闻的网站数据 图9

  优采云·云采集服务平台

  4)我们可以看到页面上第一个影评块的所有元素都被选中并变为绿色。选择“采集以下数据”

  如何抓取网易新闻的网站数据 图10

  5)修改采集字段名称并点击下方红框中的“保存并开始采集”

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图11

  第 4 步:数据采集 和导出

  1)根据采集的情况选择合适的采集方法,这里选择“本地启动采集”

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图12

  注意:本地采集 占用采集 的当前计算机资源。如果有采集时间要求或者当前电脑长时间不能执行采集,可以使用云端采集功能。云采集在网络中做采集,不需要当前计算机支持,可以关闭计算机,可以设置多个云节点分发任务,10个节点相当于10台计算机分发任务帮你采集,速度降低到原来的十分之一;采集获取的数据可以在云端存储三个月,随时可以导出。

  2)采集完成后会弹出提示,选择导出数据

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图13

  3)选择合适的导出方式,导出采集好的数据

  优采云·云采集服务平台

  如何抓取网易新闻的网站数据 图14

  本文以网易新闻的数据采集为例,采集网易新闻-国际分类下的新闻标题、标签、发布时间、关注人数等信息。在实际过程中,基本步骤可以参考以上操作。但是,由于网页的形式极其丰富,网页的结构也不尽相同,所以需要具体情况具体分析。

  相关 采集 教程:

  京东商品信息采集百度搜索结果采集搜狗微信文章采集

  优采云·云采集服务平台

  优采云——70万用户选择的网页数据采集器。1、简单易用,任何人都可以使用:无需技术背景,只需了解互联网采集。完成流程可视化,点击鼠标完成操作,2分钟快速上手。2、功能强大,任意网站可选:点击、登录、翻页、身份验证码、瀑布流、Ajax脚本异步加载数据,都可以通过简单的设置进行设置< @采集。3、云采集,你也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。巨大的云采集集群24*7不间断运行,因此无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线