批量输入多个关键词的采集步骤及步骤教程步骤

优采云发布时间: 2021-08-03 22:13

　　采集scene

　　在孔子旧书网搜索页面：输入该书的关键词（包括ISBN）进行搜索，搜索后会得到书单，然后点击书单中的书链接进入详情页面，采集detail 页面数据。

　　ISBN 是一个国际编号，专门用于识别书籍和其他文件。如果您使用 ISBN 搜索，搜索结果都是关于特定书籍的。

　　采集Field

　　作者、书名、售价、定价、库存、外观和出版时间等字段。

　　点击查看高清大图，下图同理。

　　采集Result

　　采集结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例：

　　教程说明

　　本文制作时间：2020/9/28 优采云版本：V8.1.22

　　如因网页改版导致网址或步骤无效，无法采集到目标数据，请联系官方客服，我们会及时更正。

　　采集Steps

　　步骤一、打开网页

　　步骤二、批量输入多个关键词并搜索

　　步骤三、建立【loop-click元素】，进入每个产品的详情页面

　　步骤四、setting [提取数据]，采集必填字段

　　步骤五、建立【翻页循环】，采集多页数据

　　步骤六、编辑字段

　　步骤七、设置滚动并等待执行

　　步骤八、Start采集

　　具体步骤如下：

　　步骤一、打开网页

　　在首页【输入框】输入目标网址，点击【开始采集】，优采云会自动打开网页。

　　特别说明：

　　一个。打开网页后，如果开始启动【自动识别】，请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。

　　B. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程

　　步骤二、批量输入多个关键词并搜索

　　打开网页后，通过以下步骤批量输入多个关键词。

　　1、输入 1 关键词并搜索

　　选择搜索框，在操作提示框中点击【输入文字】，输入关键词并保存。

　　选择【搜索】按钮，在操作提示框中点击【点击此按钮】，出现关键词的搜索结果。

　　2、批量输入多个关键词

　　①在【打开网页1】的步骤后，添加一个【循环】。

　　②将【输入文本】和【点击元素】都拖入【循环】中。

　　③ 进入【周期】设置页面。选择循环方式为【文本列表】，点击按钮，输入我们准备好的关键词（可以同时输入多个关键词，每行一个）并保存。

　　④ 进入【输入文本】设置页面，删除原来的关键词，勾选【使用当前循环中的文本填充输入框】并保存。

　　特别说明：

　　一个。例子中输入的关键词为[data]、[weeder]、[采集]，可以根据自己的需要替换。

　　B.一次最多输入 2W 个关键字。可以先准备一个收录多个关键字的文档，然后复制粘贴到优采云中。

　　步骤三、建立【循环-点击元素-提取数据】，采集各个产品详情页信息

　　观察网页。在此网页上，您可以通过单击标题进入详细信息页面。以下是具体步骤。

　　①选择页面上的第一个链接

　　②在*敏*感*词*的操作提示框中，选择【全选】

　　③在*敏*感*词*的操作提示框中，选择【循环点击每个元素】

　　然后自动进入第一本书的详情页。

　　特别说明：

　　一个。经过以上3步，【循环-点击元素-提取数据】的创建就完成了吗？点击查看，从列表中进入详情页采集tutorial。

　　步骤四、setting [提取数据]，采集必填字段

　　进入详情页后，采集我们需要的字段。

　　如果是文本字段：用鼠标选中需要的字段，在*敏*感*词*提示框中选择【采集元素的文本】。

　　示例中的采集都是文本类型的字段。

　　步骤五、建立【翻页循环】，采集多页数据

　　如果只有采集一页数据，可以跳过这一步。

　　如果需要翻页到采集多页数据：

　　①点击过程中的【循环列表】返回产品列表页面

　　②找到网站下的翻页按钮，选择【下一页】按钮，在*敏*感*词*的操作提示框中选择【循环点击下一页】

　　经过以上操作，【循环翻页】的创建就完成了。

　　特别说明：

　　一个。创建【循环翻页】后，优采云会自动点击翻页按钮进行翻页，从第一页、第二页……一直到最后一页。如果只需要采集特定的页面数据，可以在优采云中设置翻页的周期数。详情请点击查看翻页采集多页数据教程。

　　步骤六、编辑字段

　　1、修改字段名称，移动字段位置

　　进入【提取数据】设置页面，删除不需要的字段信息，编辑字段名称。

　　2、修改字段 XPath

　　为了准确采集每本书详情页的字段，我们需要手动修改每个字段的XPath。

　　进入【提取数据】设置页面，找到目标字段，修改其XPath。

　　示例中修改的是该字段的XPath和替代XPath：

　　质量 XPath：//I[@class="quality-desc-new"]

　　替代 XPath：//p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]

　　特别说明：

　　一个。如何修改XPath？这需要一些 XPath 知识。点击查看XPath学习和示例教程

　　其实详情页中每个字段的XPath都需要修改。请选择您需要的字段并根据需要进行修改。

　　[作者] XPath：//span[contains(text(),'author')]//following-sibling::span

　　替代XPath：//span[contains(text(),'author')]|//li[contains(text(),'author')]/a

　　[Publishing] XPath: //span[contains(text(),'publisher')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'publisher')]/span

　　[Binding] XPath //span[contains(text(),'binding')]//following-sibling::span

　　备用 XPath //li[contains(text(),'binding')]/span

　　[发布时间] XPath: //span[contains(text(),'publication time')]//following-sibling::span

　　备用XPath：//li[contains(text(),'发布时间')]/span

　　[format] XPath: //span[contains(text(),'format')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'format')]/span

　　[ISBN] XPath: //span[contains(text(),'ISBN')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'ISBN')]/span

　　[Edition] XPath: //span[contains(text(),'Edition')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'version')]/span

　　[Paper] XPath: //span[contains(text(),'paper')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'paper')]/span

　　[页数] XPath: //span[contains(text(),'page number')]//following-sibling::span

　　替代 XPath：//li[contains(text(),'page number')]/span

　　特别说明：

　　一个。如何修改XPath？这需要一些 XPath 知识。点击查看XPath学习和示例教程

　　步骤八、设置滚动并等待执行

　　1、设置滚动

　　有些网页打开后，需要向下滚动才能加载更多数据，所以优采云中也要设置为滚动：

　　进入【点击元素】设置页面，勾选滚动方式为【向下滚动一屏】、【滚动次数】10次、【每间隔】1秒。

　　2、设置【执行前等待】

　　【Wait before execution】是指在执行这一步之前，等待一段时间（等待时间根据自己的需要自行设置）。作用是等待网页上的采集数据完全加载后才执行这一步。

　　进入【点击元素】设置页面，将【执行前等待】设置为3s。

　　步骤八、Start采集

　　1、点击【采集】和【启动本地采集】。启动优采云后自动采集数据。

　　特别说明：

　　一个。【本地采集】为采集使用自己的电脑，【云采集】使用优采云采集提供的云服务器，点击查看本地采集与云采集详细解释。

　　2、采集完成后，选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。数据示例：

0

2021-08-03

关键词文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

批量输入多个关键词的采集步骤及步骤教程步骤

0 个评论

发起人

AI时代内容工厂

批量输入多个关键词的采集步骤及步骤教程步骤

0 个评论

发起人

相关问题