舆情大作战之教你用爬虫实时监控凤凰网新闻信息数据

优采云 发布时间: 2020-08-30 17:23

  教您使用采集器实时监视Phoenix.com的新闻信息数据.

  功能点目录:

  如何配置采集字段

  如何获取列表+详细页面类型的网页

  采集结果预览:

  让我们详细介绍如何采集Phoenix.com的新闻数据. 让我们以Phoenix.com的技术频道下的互联网新闻为例. 具体步骤如下:

  步骤1: 下载并安装优采云采集器,然后注册并登录

  1. 打开优采云采集器的官方网站,下载并安装最新版本的优采云采集器

  2. 单击注册以登录,注册新帐户,登录优采云采集器

  [提醒]您无需注册即可直接使用该采集器软件,但是切换到注册用户时,匿名帐户下的任务将会丢失,因此建议您在注册后使用它.

  优采云采集器是优采云的产品,优采云用户可以直接登录.

  第2步: 创建采集任务

  1. 复制Phoenix.com的Internet新闻页面的URL(需要搜索结果页面的URL,而不是首页的URL)

  2. 创建一个新的智能模式采集任务

  您可以直接在软件上创建采集任务,也可以通过导入规则来创建任务.

  第3步: 配置采集规则

  1. 设置提取数据字段

  在智能模式下,输入URL后,软件可以自动识别页面上的数据并生成采集结果. 每种数据类型都对应一个采集字段. 我们可以右键单击该字段以进行相关设置,包括“修改字段名称”,“增加或减少字段”,“过程数据”等.

  在列表页面上,我们需要采集新闻标题,新闻链接和Phoenix News的发布时间. 字段设置效果如下:

  2. 使用深度采集功能提取详细信息页面数据

  在列表页面上,仅显示Phoenix.com的部分新闻. 如果您需要详细的新闻内容,我们需要右键单击新闻链接,然后使用“深度采集”功能跳转到{mask1}的详细信息页面.

  在详细信息页面上,我们可以看到新闻的内容,来源,参加人数和评论,我们可以单击“添加字段”添加采集字段,字段设置的效果如下:

  第4步: 设置并启动采集任务

  1,设置采集任务

  添加采集数据后,我们可以启动采集任务. 开始之前,我们需要对采集任务进行一些设置,以提高采集的稳定性和成功率.

  单击“设置”按钮,然后在弹出的运行设置页面中设置运行设置和防阻塞设置. 这里我们选中“跳过继续采集”,设置为“ 2”秒请求等待时间,然后选中“不加载网页图片”,防阻塞设置将遵循系统默认设置,然后单击“保存”.

  2,开始采集任务

  单击“保存并开始”按钮,在弹出页面中进行一些高级设置,包括定时开始,自动存储和下载图片. 在此示例中未使用这些功能,只需单击“开始”以运行采集器工具.

  [温馨提示]免费版可以使用非定期定时器拍摄功能,并且图片下载功能是免费的. 个人专业版及更高版本可以使用高级计时功能和自动存储功能.

  3. 运行任务以提取数据

  任务启动后,它将自动采集数据. 我们可以从界面直观地看到程序的运行过程和采集结果. 采集结束后会有提醒.

  第5步: 导出和查看数据

  数据采集完成后,我们可以查看和导出数据. 优采云采集器支持多种导出方法(手动导出到本地,手动导出到数据库,自动发布到数据库,自动发布到网站)以及导出文件的格式(EXCEL,CSV,HTML和TXT),我们选择方法和文件类型,然后单击“确认导出”.

  [提醒]: 所有手动导出功能都是免费的. 个人专业版及更高版本可以使用“发布到网站”功能.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线