自动采集文章内容( 您当前浏览器暂不支持该控件!该怎么做?)
优采云 发布时间: 2021-12-21 18:05自动采集文章内容(
您当前浏览器暂不支持该控件!该怎么做?)
您当前的浏览器不支持此控件!
本教程适用
前文: 工具:
模型:
系统:
软件:
功能及快捷键:操作步骤/方法【方法一】11.步骤一:下载安装,并注册登录21、打开官网,下载安装最新版软件32、点击注册登录,注册一个新账号并登录42.步骤二:新建采集任务51、复制网址(需要搜索结果页面的URL,不是首页的URL)62、新智能模式采集任务7 可以直接在软件上新建任务,也可以通过导入来新建任务规则。84.第三步:配置采集规则91、 设置提取数据字段 10 在智能模式下,我们输入URL后,软件可以自动识别页面上的数据并生成采集 结果,每种类型的数据对应一个 采集 字段。我们可以右击字段进行相关设置,包括修改字段名称、增加或减少字段、处理数据等。 115.在列表页面,我们需要采集CSDN的文章@ > 标题、文章@>链接、作者、发布时间、浏览量和阅读量等信息,字段设置效果如下: 122、使用深度采集函数提取详细页面数据。13在列表页面上,只显示部分内容。如果您需要详细的文章@>内容,我们需要右击文章@>链接,然后使用“深入采集”功能跳转到采集的详细页面。147.在详情页我们可以看到文章@>的具体内容,我们可以点击“添加字段”
163、手动设置翻页 17 由于CSDN社区论坛的翻页模式为滚动,智能模式无法自动识别分页元素,此时会出现如下提示:189.for 采集对于文章@>的所有数据,我们需要手动设置翻页,我们选择“Paging Settings—Manual Paging—Waterfall Paging(Scroll Loading)”,这样所有的数据都可以采集 起来。1910.第四步:设置并启动采集任务201、设置采集任务21完成采集数据添加,我们可以开始启动< @采集 任务完成。在开始之前,我们需要对采集任务进行一些设置,以提高采集的稳定性和成功率。22 单击“设置”按钮,在弹出的运行设置页面我们可以设置运行设置和防拦截设置,这里我们勾选“跳过继续采集”,设置“2”秒的请求等待时间,勾选“不加载网页”图片”,防拦截设置将遵循系统默认设置,然后单击“保存”。2312、Start采集 Task 24 点击“Save and Start”按钮,在弹出的页面中可以进行一些高级设置,包括定时启动、自动存储和下载图片,这些都不是本例中使用到这些功能,直接点击“开始”即可运行爬虫工具。25 【温馨提示】免费版可以使用非周期性定时采集功能,下载图片功能免费。个人专业版及以上可使用高级定时功能和自动存储功能。261 3、 运行任务提取数据 27 任务启动后会自动启动采集数据,我们可以从界面直观的看到程序运行过程和采集结果,采集 end 后面会有提醒。
2813.第五步:导出和查看数据 29 Data采集 完成后,我们就可以查看和导出数据了。软件支持多种导出方式(手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布到网站)和导出文件格式(EXCEL、CSV、HTML和TXT),我们选择方法和我们需要的文件类型,然后单击“确认导出”。30 【温馨提示】:所有手动导出功能都是免费的。个人专业版及以上可以使用发布到网站功能。3114.第六步:采集效果END笔记/总结
点击显示更多