关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤 )

优采云 发布时间: 2021-09-16 11:23

  关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤

)

  采集情景

  在孔子古籍网的搜索页面:,输入关键词(含ISBN)的图书搜索,搜索后得到图书列表,点击列表中的图书链接,进入详情页面采集details page data

  ISBN是一个国际编号,专门用于识别书籍和其他文件。如果使用ISBN搜索,搜索结果都是关于某一本书的

  采集field

  作者、标题、售价、定价、库存、产品阶段、发布时间等字段

  

  单击以查看大的高清图片。下面的其他图片也是如此

  采集results

  采集results可以导出为excel、CSV、HTML、数据库和其他格式。导出到excel示例:

  

  教程说明

  生产时间:2020年9月28日优采云版本:V8.1.22

  如果由于网页修改导致网址或步骤无效,无法采集目标数据,请联系官方客服,我们会及时更正

  采集step

  步骤一、打开网页

  步骤二、批量输入多个关键词并搜索

  步骤三、build[循环-点击元素]进入每个商品的详情页面

  步骤四、set[提取数据],采集必填字段

  步骤五、建立[翻页周期]和采集多页数据

  步骤六、编辑字段

  步骤七、设置滚动并等待执行

  步骤八、开始采集

  具体步骤如下:

  步骤一、打开网页

  在主页的[input box]中输入目标网址,单击[start采集],然后优采云自动打开该网页

  

  特别说明:

  a。打开网页后,如果启动[自动识别],请单击[不再自动识别]或[取消识别]将其关闭。因为这篇文章不适合[自动识别]

  b。[自动识别]适用于自动识别网页上的列表、滚动和翻页。识别成功后,可直接启动采集获取数据。有关详细信息,请单击以查看[自动识别]教程

  步骤二、批量输入多个关键词并搜索

  打开网页后,批量输入多个关键词

  1、输入1关键词并搜索

  选择搜索框,在操作提示框中点击【输入文本】,输入关键词保存

  选择[search]按钮,在操作提示框中点击[click this button],显示关键词搜索结果

  

  2、批量输入多个关键词

  ① 在[打开网页1]步骤之后,添加[循环]

  ② 将[input text]和[click element]拖动到[cycle]中

  

  ③ 进入[循环]设置页面。选择循环方式为[文本列表],点击按钮,输入准备好的关键字(可以同时输入多个关键字,每行一个),保存

  ④ 进入[input text]设置页面,删除原创关键词,选中[fill the input box with the text in the current cycle]并保存

  

  特别说明:

  a。在本例中,关键词是[data]、[weeder]、[采集],可以根据您自己的需要进行替换

  b。一次最多输入2W个关键字。您可以准备收录多个关键字的文档,然后将其复制并粘贴到优采云中@

  步骤三、建立[循环-点击元素-提取数据],以及采集每个商品的详细页面信息

  观察网页。单击此网页上的标题以进入详细信息页面。以下是具体步骤

  ① 选择页面上的第一个链接

  ② 在*敏*感*词*操作提示框中,选择全选

  ③ 在*敏*感*词*操作提示框中,选择[重复单击每个元素]

  然后自动进入第一本书的详细信息页面

  

  特别说明:

  a。为什么[loop click element extract data]的创建是通过上述三个步骤完成的?单击“查看”从列表中进入详细信息页面采集tutorial

  步骤四、set[提取数据],采集必填字段

  进入详细信息页面后,采集我们需要这些字段

  如果是文本字段:选择所需字段并在*敏*感*词*提示框中选择[采集this element's text]

  示例中采集中的所有字段都是基于文本的字段

  

  步骤五、建立[翻页周期]和采集多页数据

  如果只有采集一页数据,您可以跳过此步骤

  如果需要将页面转到采集多页数据:

  ① 点击流程中的循环列表,返回商品列表页面

  ② 在底部找到网站翻页按钮,选择【下一页】按钮,在*敏*感*词*操作提示框中选择【反复点击下一页】

  完成上述操作后,[循环翻页]的创建完成

  

  特别说明:

  a。创建[循环翻页]后,优采云将自动单击翻页按钮翻页,从第1页,第2页。。。到最后一页。如果只需要采集特定页面数据,可以在优采云中设置翻页周期数。有关详细信息,请单击“查看页面”转到采集多页数据教程

  步骤六、编辑字段

  1、修改字段名称并移动字段位置

  进入【提取数据】设置页面,删除不必要的字段信息,编辑字段名称

  

  2、modify字段XPath

  为了准确地采集找到每本书细节页面上的字段,我们需要手动修改每个字段的XPath

  进入[extract data]设置页面,找到目标字段并修改其XPath

  在本例中,[phase]字段的XPath和备用XPath被修改:

  阶段XPath://I[@class=“quality desc new”]

  备选XPath://p[@class=“quality Clearfix”]//以下::I[1][@class=“quality desc common”]

  特别说明:

  a。如何修改XPath?这需要一些XPath知识。单击此处查看XPath学习和示例教程

  优采云1@

  事实上,细节页面上每个字段的XPath都需要修改。请选择所需字段,并根据需要进行修改

  [author]XPath://span[contains(text(),'author')]//以下同级::span

  可选XPath://span[contains(text(),'author')]//Li[contains(text(),'author')]/A

  [publishing]XPath://span[contains(text(),'publisher')]//以下同级::span

  备选XPath://Li[contains(text(),'publisher')]/span

  [binding]XPath//span[收录(text(),'binding')]//以下同级::span

  备选XPath//Li[收录(文本(),“绑定”)]/span

  [发布时间]XPath://span[收录(text(),“发布时间”)]//以下同级::span

  备选XPath://Li[收录(text(),“发布时间”)]/span

  [format]XPath://span[contains(text(),'format')]//以下同级::span

  可选XPath://Li[contains(text(),'folio')]/span

  【ISBN】XPath://span[contains(text(),'ISBN')]//以下同级::span

  可选XPath://Li[contains(text(),'isbn')]/span

  [version]XPath://span[收录(text(),'version')]//以下同级::span

  备选XPath://Li[contains(text(),'version')]/span

  [paper]XPath://span[contains(text(),'paper')]//以下同级::span

  备选XPath://Li[contains(text(),'paper')]/span

  [页数]XPath://span[收录(text(),“页数”)]//以下同级::span

  可选XPath://Li[contains(text(),'pages')]/span

  特别说明:

  a。如何修改XPath?这需要一些XPath知识。单击此处查看XPath学习和示例教程

  步骤八、设置滚动并等待执行

  1、设置卷轴

  打开某些网页后,需要向下滚动以加载更多数据。因此,还应设置优采云滚动:

  进入[click element]设置页面,检查滚动方式为[scroll down one screen]、[scroll times]10次和[interval]1秒

  2、设置【执行前等待】

  [执行前等待]是指在执行此步骤之前等待一段时间(等待时间根据您的需要设置)。该函数的作用是在执行此步骤之前,等待网页上的采集数据完全加载

  进入[click element]设置页面,将[wait before execution]设置为3S

  优采云5@

  步骤八、开始采集

  1、单击采集并启动本地采集。启动后自动优采云数据

  优采云8@

  特别说明:

  a。[local采集]使用您自己的计算机执行采集,[cloud采集]使用优采云提供的云服务器采集。单击此处可查看本地采集和云采集的详细信息@

  2、采集完成后,选择适当的导出方法导出数据。支持导出到excel、CSV、HTML、数据库等。在此处导出为excel。数据示例:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线