关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤 )
优采云 发布时间: 2021-09-16 11:23)
采集情景
在孔子古籍网的搜索页面:,输入关键词(含ISBN)的图书搜索,搜索后得到图书列表,点击列表中的图书链接,进入详情页面采集details page data
ISBN是一个国际编号,专门用于识别书籍和其他文件。如果使用ISBN搜索,搜索结果都是关于某一本书的
采集field
作者、标题、售价、定价、库存、产品阶段、发布时间等字段
单击以查看大的高清图片。下面的其他图片也是如此
采集results
采集results可以导出为excel、CSV、HTML、数据库和其他格式。导出到excel示例:
教程说明
生产时间:2020年9月28日优采云版本:V8.1.22
如果由于网页修改导致网址或步骤无效,无法采集目标数据,请联系官方客服,我们会及时更正
采集step
步骤一、打开网页
步骤二、批量输入多个关键词并搜索
步骤三、build[循环-点击元素]进入每个商品的详情页面
步骤四、set[提取数据],采集必填字段
步骤五、建立[翻页周期]和采集多页数据
步骤六、编辑字段
步骤七、设置滚动并等待执行
步骤八、开始采集
具体步骤如下:
步骤一、打开网页
在主页的[input box]中输入目标网址,单击[start采集],然后优采云自动打开该网页
特别说明:
a。打开网页后,如果启动[自动识别],请单击[不再自动识别]或[取消识别]将其关闭。因为这篇文章不适合[自动识别]
b。[自动识别]适用于自动识别网页上的列表、滚动和翻页。识别成功后,可直接启动采集获取数据。有关详细信息,请单击以查看[自动识别]教程
步骤二、批量输入多个关键词并搜索
打开网页后,批量输入多个关键词
1、输入1关键词并搜索
选择搜索框,在操作提示框中点击【输入文本】,输入关键词保存
选择[search]按钮,在操作提示框中点击[click this button],显示关键词搜索结果
2、批量输入多个关键词
① 在[打开网页1]步骤之后,添加[循环]
② 将[input text]和[click element]拖动到[cycle]中
③ 进入[循环]设置页面。选择循环方式为[文本列表],点击按钮,输入准备好的关键字(可以同时输入多个关键字,每行一个),保存
④ 进入[input text]设置页面,删除原创关键词,选中[fill the input box with the text in the current cycle]并保存
特别说明:
a。在本例中,关键词是[data]、[weeder]、[采集],可以根据您自己的需要进行替换
b。一次最多输入2W个关键字。您可以准备收录多个关键字的文档,然后将其复制并粘贴到优采云中@
步骤三、建立[循环-点击元素-提取数据],以及采集每个商品的详细页面信息
观察网页。单击此网页上的标题以进入详细信息页面。以下是具体步骤
① 选择页面上的第一个链接
② 在*敏*感*词*操作提示框中,选择全选
③ 在*敏*感*词*操作提示框中,选择[重复单击每个元素]
然后自动进入第一本书的详细信息页面
特别说明:
a。为什么[loop click element extract data]的创建是通过上述三个步骤完成的?单击“查看”从列表中进入详细信息页面采集tutorial
步骤四、set[提取数据],采集必填字段
进入详细信息页面后,采集我们需要这些字段
如果是文本字段:选择所需字段并在*敏*感*词*提示框中选择[采集this element's text]
示例中采集中的所有字段都是基于文本的字段
步骤五、建立[翻页周期]和采集多页数据
如果只有采集一页数据,您可以跳过此步骤
如果需要将页面转到采集多页数据:
① 点击流程中的循环列表,返回商品列表页面
② 在底部找到网站翻页按钮,选择【下一页】按钮,在*敏*感*词*操作提示框中选择【反复点击下一页】
完成上述操作后,[循环翻页]的创建完成
特别说明:
a。创建[循环翻页]后,优采云将自动单击翻页按钮翻页,从第1页,第2页。。。到最后一页。如果只需要采集特定页面数据,可以在优采云中设置翻页周期数。有关详细信息,请单击“查看页面”转到采集多页数据教程
步骤六、编辑字段
1、修改字段名称并移动字段位置
进入【提取数据】设置页面,删除不必要的字段信息,编辑字段名称
2、modify字段XPath
为了准确地采集找到每本书细节页面上的字段,我们需要手动修改每个字段的XPath
进入[extract data]设置页面,找到目标字段并修改其XPath
在本例中,[phase]字段的XPath和备用XPath被修改:
阶段XPath://I[@class=“quality desc new”]
备选XPath://p[@class=“quality Clearfix”]//以下::I[1][@class=“quality desc common”]
特别说明:
a。如何修改XPath?这需要一些XPath知识。单击此处查看XPath学习和示例教程
优采云1@
事实上,细节页面上每个字段的XPath都需要修改。请选择所需字段,并根据需要进行修改
[author]XPath://span[contains(text(),'author')]//以下同级::span
可选XPath://span[contains(text(),'author')]//Li[contains(text(),'author')]/A
[publishing]XPath://span[contains(text(),'publisher')]//以下同级::span
备选XPath://Li[contains(text(),'publisher')]/span
[binding]XPath//span[收录(text(),'binding')]//以下同级::span
备选XPath//Li[收录(文本(),“绑定”)]/span
[发布时间]XPath://span[收录(text(),“发布时间”)]//以下同级::span
备选XPath://Li[收录(text(),“发布时间”)]/span
[format]XPath://span[contains(text(),'format')]//以下同级::span
可选XPath://Li[contains(text(),'folio')]/span
【ISBN】XPath://span[contains(text(),'ISBN')]//以下同级::span
可选XPath://Li[contains(text(),'isbn')]/span
[version]XPath://span[收录(text(),'version')]//以下同级::span
备选XPath://Li[contains(text(),'version')]/span
[paper]XPath://span[contains(text(),'paper')]//以下同级::span
备选XPath://Li[contains(text(),'paper')]/span
[页数]XPath://span[收录(text(),“页数”)]//以下同级::span
可选XPath://Li[contains(text(),'pages')]/span
特别说明:
a。如何修改XPath?这需要一些XPath知识。单击此处查看XPath学习和示例教程
步骤八、设置滚动并等待执行
1、设置卷轴
打开某些网页后,需要向下滚动以加载更多数据。因此,还应设置优采云滚动:
进入[click element]设置页面,检查滚动方式为[scroll down one screen]、[scroll times]10次和[interval]1秒
2、设置【执行前等待】
[执行前等待]是指在执行此步骤之前等待一段时间(等待时间根据您的需要设置)。该函数的作用是在执行此步骤之前,等待网页上的采集数据完全加载
进入[click element]设置页面,将[wait before execution]设置为3S
优采云5@
步骤八、开始采集
1、单击采集并启动本地采集。启动后自动优采云数据
优采云8@
特别说明:
a。[local采集]使用您自己的计算机执行采集,[cloud采集]使用优采云提供的云服务器采集。单击此处可查看本地采集和云采集的详细信息@
2、采集完成后,选择适当的导出方法导出数据。支持导出到excel、CSV、HTML、数据库等。在此处导出为excel。数据示例: