技术文章:批量采集CSDN社区文章数据
优采云 发布时间: 2022-09-27 21:17技术文章:批量采集CSDN社区文章数据
第一步:下载安装,注册登录1、打开官网,下载安装最新版软件2、点击注册登录,注册新账号,登录
第二步:新建采集任务1、复制网址(需要搜索结果页的网址,不是首页的网址)
2、新建智能模式采集任务可以直接在软件上新建采集任务,也可以通过导入规则来创建任务。
第三步:配置采集规则1、设置提取数据字段在智能模式下,我们输入URL后,软件会自动识别页面数据并生成seafoam采集@ > 这样一来,每类数据对应一个采集字段,我们可以右键该字段进行相关设置,包括修改字段名称、添加或删除字段、处理数据等。
在列表页,我们需要采集CSDN的文章标题、文章链接、作者、发布时间、浏览量、阅读量等信息。设置字段的效果如下:
2、使用深度采集函数提取详情页数据。列表页面仅显示部分内容。如果需要详细的文章内容,我们需要右击文章链接,然后使用“潜入采集”功能跳转到采集的详情页面.
在详情页,我们可以看到文章的具体内容。我们可以点击“添加字段”来添加一个采集 字段。字段设置效果如下: 【提醒】选择文章的新闻内容时,可以将鼠标移动到文章内容的前半部分,当看到蓝色区域被选中时,可以点选,可以提取整篇文章的所有内容文章。
3、手动设置翻页由于CSDN社区论坛的翻页模式为滚动,智能模式无法自动识别分页元素,此时会出现如下提示:
为了采集到所有文章数据,我们需要手动设置翻页,我们选择“分页设置-手动分页-瀑布式分页(滚动加载)”,这样< @采集所有数据都出来了。
第四步:设置并启动采集任务1、设置采集任务并完成采集数据添加,我们可以启动采集@ >任务。在开始之前,我们需要对采集任务进行一些设置,以提高采集的稳定性和成功率。点击“设置”按钮,在弹出的操作设置页面,我们可以设置操作设置和防屏蔽设置,这里我们勾选“Skip continue 采集”,设置“2”秒请求等待时间,勾选“不加载网页图片”,按照系统默认设置防屏蔽设置,然后点击保存。
2、开始采集任务点击“保存并开始”按钮,在弹出的页面中可以进行一些高级设置,包括定时启动、自动存储和下载图片,分别是不包括在这个例子中。要使用这些功能,直接点击“开始”运行爬虫工具即可。 【温馨提示】免费版可以使用非周期性定时采集功能,下载图片功能免费。个人专业版及以上可使用高级计时功能和自动存储功能。
3、运行任务提取数据,任务启动后自动启动采集数据。从界面我们可以直观的看到程序运行过程和采集结果,采集结束会有提示。
第五步:导出和查看数据数据采集完成后我们可以查看和导出数据,软件支持多种导出方式(手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布网站)和导出文件格式(EXCEL、CSV、HTML和TXT),我们选择我们需要的方法和文件类型,点击“确认导出”。 【温馨提示】:所有手动导出功能均免费。个人专业版及以上可以使用发布到网站功能。
第 6 步:采集效果
近期更新:网站自动更新采集软件下载
优采云采集器,网站更新必要的采集软件,无需人工值守,24小时自动实时监控目标,实时高效采集,日夜为您提供最新的内容。满足长期运行的需求,让您摆脱繁重的工作量。
功能介绍
广泛适用
与全能采集软件相比,支持任意类型网站采集,应用率高达99.9%,支持发布到所有类型的网站程序,可以采集本地文件,无需接口发布。
你想要的信息
支持信息自由组合,通过强大的数据排序功能对信息进行深度处理,创造新内容
任意格式文件下载
无论是静态还是动态,无论是图片、音乐、电影、软件,还是PDF文档、Word文档,甚至是torrent文件,只要你想要
高速同义词替换、随机多词替换、段落随机排序、帮助内容SEO
无限多级页面采集
无论是垂直方向的多层页面,平行方向的复杂页面,还是AJAX调用的页面,你都轻松搞定采集
免费扩展
开放接口模式,免费二次开发,自定义任何功能,实现所有需求
内置软件包括discuzX、phpwind、dedecms、wordpress、phpcms、empirecms、dongyi、joomla、pbdigg、php168、bbsxp、phpbb、dvbbs、typecho , emblog等很多常用系统的例子。
更新内容
1、新增:数据排序支持正则语法,每个排序规则支持独立选项。
2、新增:自动重发失败的选项文章已添加到方案中。
文件信息
文件大小:16165888 字节
文件描述:ET3base
文件版本:1.4.0.0
MD5: F0EAAAAF6CD1485880608E3B327BA60CB
SHA1:12A1E7E83A77038D81BDC6160A26F52723A931DB
CRC32: 35B0E9
官方网站:
相关搜索:采集