网页数据抓取软件( 易搜采集一个网站数据列表的地址(图) )
优采云 发布时间: 2022-03-05 11:05网页数据抓取软件(
易搜采集一个网站数据列表的地址(图)
)
第一步,选择起始网址
当你要采集一个网站数据时,首先需要找到一个显示数据列表的地址。这一步至关重要,决定了您采集拥有的数据的数量和类型。
以Made in China网站的英文站点为例,我们要在当前关键词中获取公司名称、联系人、公司编号等信息。
通过浏览网站,我们找到了所有食品企业列表的地址:
然后在EasySearch中新建一个任务采集软件->第一步->输入网址
然后点击下一步。
第二步,抓取数据
进入第二步后,Easy Search采集软件会智能分析网页并从中提取列表数据。如下图:
这时候我们对已经分析过的数据进行整理和修改,比如删除无用的字段。
单击列的下拉按钮并选择删除字段。
当然还有其他操作,比如名称修改、数据处理等,这些我们会在后面的文档中介绍。
整理完修改字段,我们来采集处理分页
选择分页设置->自动识别分页,程序会自动定位下一个页面元素。
完成后,点击下一步。
第三步,设置
这包括浏览器的配置,比如禁用图片、禁用JS、禁用Flash、屏蔽广告等,这些配置可以提高浏览器的加载速度。
定时任务的配置,通过定时任务,可以设置任务定时自动运行。
点击完成保存任务。
完成,运行任务
任务创建完成后,我们选择新创建的任务,点击任务栏开始。