免规则采集器列表算法(怎么导出前台运行任务的采集任务?软件步骤)
优采云 发布时间: 2021-12-22 18:13免规则采集器列表算法(怎么导出前台运行任务的采集任务?软件步骤)
第一步:登录打开优采云采集器软件
第二步:新建一个采集任务
1、复制网页地址:需要采集评价的产品的URL
2、新流程图模式采集任务:导入采集规则创建智能任务
第三步:配置采集规则
1、设置预登录
输入网址后,我们进入宝贝详情页。这时候我们可以点击关闭页面上出现的登录界面。无需登录即可采集评论数据。
2、设置数据字段
详情页可以看到评论数量,但看不到具体评论内容。我们需要点击评论,然后在左上角跳出的提示框中选择“点击这个元素”。
3、 进入评论界面后,根据搜索方向选择元素,如好评、差评等元素。在此基础上,我们可以右键该字段进行相关设置,包括修改字段名称、增加或减少字段、处理数据等。
由于我们要下载所有评论图片,我们可以选择评论中的所有图片,然后设置字段属性——extract external html。
4、我们采集发布了单页的评论数据,现在我们需要采集下一页的数据,我们点击页面上的“下一步”按钮,操作出现在在左上角的提示框中,选择“循环点击下一页”。
第四步:设置并启动采集任务
点击“启动采集”按钮,可以在弹出的启动设置页面进行一些高级设置,包括“定时启动、防阻塞、自动导出、文件下载、加速引擎、重复数据删除、开发者设置” 》 功能,这次采集没有用到这些功能,我们直接点击开始启动采集。
第 5 步:导出并查看数据
数据采集完成后,我们可以查看和导出数据,优采云采集器支持多种导出方式和导出文件格式,还支持特定数量的导出项,可以在数据中选择要导出的项目数,然后点击“确认导出”。
[如何导出]
1、导出采集前台运行任务的结果
如果采集任务在前台运行,任务结束后软件会弹出数据采集停止提示框。这时候我们点击“导出数据”按钮,导出采集的数据结果。
2、导出采集后台运行任务的结果
如果采集任务在后台运行,任务完成后桌面右下角会弹出导出提示框。我们将根据右下角任务完成的弹出提示打开查看数据界面或导出数据。
3、导出保存的采集任务采集结果
如果不是实时采集任务,而是之前运行过的采集任务,比如我们关闭软件再重新打开软件,然后导出一个采集任务已经运行。采集 结果。
这种情况下,我们可以右击任务,点击“查看数据”,打开查看数据界面,然后在该界面设置导出数据。
4、导出数据的其他事项
目前优采云采集器支持多种格式自由导出,包括:Excel2007、Excel2003、CSV、HTML文件、TXT文件;同时支持自由导出到数据库。
个人专业版及以上支持发布到网站,目前支持发布到WordPress、发布到Typecho、发布到DEDEcms(织梦),更多网站模板持续更新中更新中……
导出数据时,用户可以选择导出范围、导出未导出的数据、导出选定的数据或选择导出项目的数量。
导出结束后,还可以对导出的数据进行标记,以便清晰直观的看到哪些数据已经导出,哪些数据没有导出。
[如何下载图片]
第一种:逐张添加图片
在页面上直接点击要下载的图片,然后根据提示点击“提取该元素”,软件会自动生成提取的数据组件并添加图片字段。(如果有连续的采集字段,可能不会每次都生成一个新的提取数据组价格,只会增加新的字段)
或者直接点击“添加字段”,然后在页面上点击要下载的图片。
第二种:一次下载多张图片
在这种情况下,需要将图片组合在一起,可以一次选择所有图片。
我们可以直接点击整个图片区域的右下角,在选框的时候我们可以看到软件的蓝色框选区域,保证所有要下载的图片都被装框了。然后根据提示点击“提取该元素”,软件会自动生成提取的数据组件并添加图片字段。(如果有连续的采集字段,可能不会每次都生成一个新的提取数据组价格,只会增加新的字段)
然后右键单击该字段并将字段属性修改为“提取内部 HTML”。
点击右下角的“开始采集”按钮,设置图片下载功能。
接下来我们只需要点击“开始采集”,然后在开始框中勾选“采集同时下载图片到以下目录”即可启动图片下载功能,用户可以设置本地保存图片路径。