舆情大作战之教你用爬虫实时监控凤凰网新闻信息数据
优采云 发布时间: 2020-08-30 17:23教您使用采集器实时监视Phoenix.com的新闻信息数据.
功能点目录:
如何配置采集字段
如何获取列表+详细页面类型的网页
采集结果预览:
让我们详细介绍如何采集Phoenix.com的新闻数据. 让我们以Phoenix.com的技术频道下的互联网新闻为例. 具体步骤如下:
步骤1: 下载并安装优采云采集器,然后注册并登录
1. 打开优采云采集器的官方网站,下载并安装最新版本的优采云采集器
2. 单击注册以登录,注册新帐户,登录优采云采集器
[提醒]您无需注册即可直接使用该采集器软件,但是切换到注册用户时,匿名帐户下的任务将会丢失,因此建议您在注册后使用它.
优采云采集器是优采云的产品,优采云用户可以直接登录.
第2步: 创建采集任务
1. 复制Phoenix.com的Internet新闻页面的URL(需要搜索结果页面的URL,而不是首页的URL)
2. 创建一个新的智能模式采集任务
您可以直接在软件上创建采集任务,也可以通过导入规则来创建任务.
第3步: 配置采集规则
1. 设置提取数据字段
在智能模式下,输入URL后,软件可以自动识别页面上的数据并生成采集结果. 每种数据类型都对应一个采集字段. 我们可以右键单击该字段以进行相关设置,包括“修改字段名称”,“增加或减少字段”,“过程数据”等.
在列表页面上,我们需要采集新闻标题,新闻链接和Phoenix News的发布时间. 字段设置效果如下:
2. 使用深度采集功能提取详细信息页面数据
在列表页面上,仅显示Phoenix.com的部分新闻. 如果您需要详细的新闻内容,我们需要右键单击新闻链接,然后使用“深度采集”功能跳转到{mask1}的详细信息页面.
在详细信息页面上,我们可以看到新闻的内容,来源,参加人数和评论,我们可以单击“添加字段”添加采集字段,字段设置的效果如下:
第4步: 设置并启动采集任务
1,设置采集任务
添加采集数据后,我们可以启动采集任务. 开始之前,我们需要对采集任务进行一些设置,以提高采集的稳定性和成功率.
单击“设置”按钮,然后在弹出的运行设置页面中设置运行设置和防阻塞设置. 这里我们选中“跳过继续采集”,设置为“ 2”秒请求等待时间,然后选中“不加载网页图片”,防阻塞设置将遵循系统默认设置,然后单击“保存”.
2,开始采集任务
单击“保存并开始”按钮,在弹出页面中进行一些高级设置,包括定时开始,自动存储和下载图片. 在此示例中未使用这些功能,只需单击“开始”以运行采集器工具.
[温馨提示]免费版可以使用非定期定时器拍摄功能,并且图片下载功能是免费的. 个人专业版及更高版本可以使用高级计时功能和自动存储功能.
3. 运行任务以提取数据
任务启动后,它将自动采集数据. 我们可以从界面直观地看到程序的运行过程和采集结果. 采集结束后会有提醒.
第5步: 导出和查看数据
数据采集完成后,我们可以查看和导出数据. 优采云采集器支持多种导出方法(手动导出到本地,手动导出到数据库,自动发布到数据库,自动发布到网站)以及导出文件的格式(EXCEL,CSV,HTML和TXT),我们选择方法和文件类型,然后单击“确认导出”.
[提醒]: 所有手动导出功能都是免费的. 个人专业版及更高版本可以使用“发布到网站”功能.