免费网页采集器(网页数据采集软件采集器采集流程介绍 )
优采云 发布时间: 2022-01-11 18:16)
优采云采集器官方安装版是专业的网页数据采集软件,优采云采集器可以在各种平台上使用,采集和导出数据全部免费,优采云采集器有自定义的采集程序进行可视化,优采云采集器也支持后台运行。
软件功能
1、可视化自定义采集 流程。
全程问答引导,可视化操作,自定义采集流程。
自动记录和模拟网页动作序列。
满足更多采集 需求的高级设置。
2、点击提取网页数据
点击鼠标选择要爬取的网页内容,操作简单。
可选择提取文本、链接、属性、html 标签等。
3、批量运行采集数据
软件根据采集流程和提取规则自动批处理采集。
快速稳定,实时显示采集速度和进度。
软件可以切换到后台运行,不影响前台工作。
4、导出和发布采集数据
采集的数据自动制表,字段可自由配置。
支持数据导出到Excel等本地文件。
并一键发布到cms网站/database/微信公众号等媒体。
指示
如何自定义采集百度搜索结果数据。
第 1 步:创建一个 采集 任务
(1),启动优采云采集器,进入主界面,选择自定义采集,点击创建任务按钮,创建“自定义采集任务”。
(2),输入百度搜索的网址,包括三种方式。
1、手动输入:直接在输入框中输入网址。多个 URL 需要用换行符分隔。
2、点击从文件读取方法:用户选择一个存储URL的文件。文件中可以有多个 URL 地址,地址之间需要用换行符分隔。
3、批量添加方式:通过添加和调整地址参数生成多个常规地址。
第 2 步:自定义 采集 流程
1、点击创建,自动打开第一个网址,进入自定义设置页面。默认情况下,已经创建了启动、打开网页和结束的进程块。底部的模板区用于拖拽到画布上,生成新的流程块;单击打开网页中的属性按钮,修改打开的 URL。
2、添加输入文本流块:将底部模板区域的输入文本块拖放到打开的网页块的后面。当阴影区域出现时,您可以松开鼠标。此时会自动连接,添加完成。
3、生成一个完整的流程图:在上面添加输入文本流块的拖放过程之后添加一个新块:如下图:
关键步骤块设置介绍
第一步:定时等待用于等待之前打开的网页完成。
第二步:点击输入框Xpath属性按钮,点击属性菜单中的图标点击网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
第三步:设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页中的百度按钮。
第四步:用于设置循环加载下一个列表页面。在循环块内的循环条件块中设置详细条件,点击此处的操作按钮,选择单个元素,然后在属性菜单中点击该元素的xpath属性按钮,在网页中点击下一页按钮为多于。循环次数属性按钮可以默认为0,即不限制下一页的点击次数。
步骤5:用于设置循环中的数据以提取列表页面。在循环块内的循环条件块中设置详细条件,点击这里的操作按钮,选择不固定元素列表,然后点击属性菜单中元素的xpath属性按钮,然后连续点击两次提取网页中的第一个块和第二个块元素。循环计数属性按钮可以默认为0,即不限制列表中计费的字段数。
第六步:用于执行点击下一页按钮的操作,点击元素xpath属性按钮,选择使用当前循环中元素xpath的选项。
第七步:同理,设置网页加载的等待时间。
步骤 8:要设置在列表页面上提取的字段规则,请单击属性按钮中的 Use Elements in Loops 按钮,然后选择 Use Elements in Loops 选项。单击元素模板属性按钮,在字段表中单击加号或减号可添加或删除字段。添加字段,使用单击操作,即单击加号并将鼠标移动到网页元素并单击选择。
4、点击开始采集,开始采集
第 3 步:数据采集 和导出
1、采集任务正在运行。
2、采集完成后,选择“导出数据”,将所有数据导出到本地文件。
3、选择“导出方式”导出采集好的数据。在这里您可以选择excel作为导出格式。
4、采集数据导出如下图。