优采云采集器使用教程自定义采集百度搜索结果数据的方法
优采云 发布时间: 2021-07-25 19:28优采云采集器使用教程自定义采集百度搜索结果数据的方法
优采云采集器是为网页采集器准备的强大且非常专业的数据,数据可以导出到本地文件,发布到网站和数据库等,让您轻松搞定采集数据,有需要就来试试吧!
软件介绍
优采云采集器是一款免费的网络数据采集,具有可视化点击和一键式采集网络数据功能,是一个任何人都可以使用的网络数据采集器。 优采云采集器 导出数据没有限制。数据可以导出到本地文件,发布到网站和数据库等,非常方便,有需要的朋友赶紧下载吧。
优采云采集器使用教程
自定义采集百度搜索结果数据的方法
第一步:创建采集task
1)Start优采云采集器,进入主界面,选择Custom采集,点击Create Task按钮创建“Custom采集Task”
2)输入百度搜索的网址,包括三种方式
1、手动输入:在输入框中直接输入网址,多个网址需要用换行符分隔
2、点击读取文件:用户选择一个文件来存储URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。
3、批量添加方法:通过添加和调整地址参数生成多个常规地址
第 2 步:自定义采集process
1) 点击创建后,会自动打开第一个网址,进入自定义设置页面。默认情况下,已经创建了开始、打开网页和结束的进程块。底部的模板区域用于拖放到画布上生成新的流程块;点击打开网页中的属性按钮修改打开的网址
2)添加文本输入处理块:将底部模板区域中的输入文本块拖到打开的网页块的背面附近。出现阴影区域时松开鼠标,此时会自动连接,添加完成
3) 生成一个完整的流程图:按照上面添加输入文本流程块的拖放流程添加一个新块:如下图:
关键步骤块设置介绍
第2步:定时等待用于等待之前打开的网页完成
第三步:点击输入框的Xpath属性按钮,点击属性菜单中的图标选择网页上的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本.
第四步:用于设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页上的百度按钮。
第五步:用于设置加载下一个列表页面的周期。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮选择单个元素,然后在属性菜单中单击该元素的xpath 属性按钮,然后在网页中单击下一页按钮,如上。循环次数属性按钮可以默认为0,即下一页没有点击次数限制。
第六步:用于设置循环提取列表页面中的数据。在循环块内部的循环条件块中设置详细条件,点击这里的操作按钮,选择未固定元素列表,然后在属性菜单中点击该元素的xpath属性按钮,然后在网页中点击两次即可提取第一个块和第二个元素。循环次数属性按钮可以默认为0,即不限制列表中采集的字段数。
第七步:用于执行点击下一页按钮、点击元素xpath属性按钮、选择当前循环中元素的xpath选项的操作。
第八步:同样用于设置网页加载的等待时间。
第九步:用于在列表页面设置要提取的字段规则,点击属性按钮中的循环中使用元素按钮,选择循环中使用元素的选项。单击元素模板属性按钮在字段表中添加和减去字段以添加和删除字段。添加字段,使用点击操作,即点击加号,将鼠标移动到网页元素,点击选择。
4)点击开始采集,开始采集
第三步:数据采集并导出
1)采集任务正在运行
2)采集 完成后,选择“导出数据”将所有数据导出到本地文件
3)选择“导出方式”导出采集good数据,这里可以选择excel作为导出格式
4)采集数据导出后如下图
软件功能
可视化点击,一键采集网页数据
拖拽全过程,无需开发或懂技术。任何人都可以使用网络数据采集器
采集和导出都是免费的,放心无限使用
所有免费的采集软件,导出数据无限制数据可以导出到本地文件,发布到网站和数据库等
可后台运行,实时显示速度
您可以将软件切换到后台运行,而不会打扰您的其他前台工作。悬浮窗可以实时查看采集speed和采集数据。
所有平台,Win/Mac/Linux 均可用
与其他采集器不同,优采云支持所有操作系统版本更新和功能升级,同步所有平台。
软件功能
1、Visualization 自定义采集process
全程问答指导,可视化操作,自定义采集流程。
自动记录和模拟网页操作顺序
高级设置满足更多采集需求
2、点击提取网页数据
鼠标点击选择要抓取的网页内容,操作简单。
可以选择提取文本、链接、属性、html标签等
3、run batch采集data
软件按照采集流程和提取规则自动对采集进行批量处理。
快速稳定,采集速度和进程实时显示,可切换软件后台运行,不打扰前台工作。
4、导出并发布采集的数据
采集的数据自动制表,字段可自由配置。
支持数据导出到Excel等本地文件,支持一键发布到cms网站/database/微信公众号等媒体。
详细信息