关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤 )

优采云发布时间: 2021-09-16 11:23

　　关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤

)

　　采集情景

　　在孔子古籍网的搜索页面：，输入关键词（含ISBN）的图书搜索，搜索后得到图书列表，点击列表中的图书链接，进入详情页面采集details page data

　　ISBN是一个国际编号，专门用于识别书籍和其他文件。如果使用ISBN搜索，搜索结果都是关于某一本书的

　　采集field

　　作者、标题、售价、定价、库存、产品阶段、发布时间等字段

　　单击以查看大的高清图片。下面的其他图片也是如此

　　采集results

　　采集results可以导出为excel、CSV、HTML、数据库和其他格式。导出到excel示例：

　　教程说明

　　生产时间：2020年9月28日优采云版本：V8.1.22

　　如果由于网页修改导致网址或步骤无效，无法采集目标数据，请联系官方客服，我们会及时更正

　　采集step

　　步骤一、打开网页

　　步骤二、批量输入多个关键词并搜索

　　步骤三、build[循环-点击元素]进入每个商品的详情页面

　　步骤四、set[提取数据]，采集必填字段

　　步骤五、建立[翻页周期]和采集多页数据

　　步骤六、编辑字段

　　步骤七、设置滚动并等待执行

　　步骤八、开始采集

　　具体步骤如下：

　　步骤一、打开网页

　　在主页的[input box]中输入目标网址，单击[start采集]，然后优采云自动打开该网页

　　特别说明：

　　a。打开网页后，如果启动[自动识别]，请单击[不再自动识别]或[取消识别]将其关闭。因为这篇文章不适合[自动识别]

　　b。[自动识别]适用于自动识别网页上的列表、滚动和翻页。识别成功后，可直接启动采集获取数据。有关详细信息，请单击以查看[自动识别]教程

　　步骤二、批量输入多个关键词并搜索

　　打开网页后，批量输入多个关键词

　　1、输入1关键词并搜索

　　选择搜索框，在操作提示框中点击【输入文本】，输入关键词保存

　　选择[search]按钮，在操作提示框中点击[click this button]，显示关键词搜索结果

　　2、批量输入多个关键词

　　① 在[打开网页1]步骤之后，添加[循环]

　　② 将[input text]和[click element]拖动到[cycle]中

　　③ 进入[循环]设置页面。选择循环方式为[文本列表]，点击按钮，输入准备好的关键字（可以同时输入多个关键字，每行一个），保存

　　④ 进入[input text]设置页面，删除原创关键词，选中[fill the input box with the text in the current cycle]并保存

　　特别说明：

　　a。在本例中，关键词是[data]、[weeder]、[采集]，可以根据您自己的需要进行替换

　　b。一次最多输入2W个关键字。您可以准备收录多个关键字的文档，然后将其复制并粘贴到优采云中@

　　步骤三、建立[循环-点击元素-提取数据]，以及采集每个商品的详细页面信息

　　观察网页。单击此网页上的标题以进入详细信息页面。以下是具体步骤

　　① 选择页面上的第一个链接

　　② 在*敏*感*词*操作提示框中，选择全选

　　③ 在*敏*感*词*操作提示框中，选择[重复单击每个元素]

　　然后自动进入第一本书的详细信息页面

　　特别说明：

　　a。为什么[loop click element extract data]的创建是通过上述三个步骤完成的？单击“查看”从列表中进入详细信息页面采集tutorial

　　步骤四、set[提取数据]，采集必填字段

　　进入详细信息页面后，采集我们需要这些字段

　　如果是文本字段：选择所需字段并在*敏*感*词*提示框中选择[采集this element's text]

　　示例中采集中的所有字段都是基于文本的字段

　　步骤五、建立[翻页周期]和采集多页数据

　　如果只有采集一页数据，您可以跳过此步骤

　　如果需要将页面转到采集多页数据：

　　① 点击流程中的循环列表，返回商品列表页面

　　② 在底部找到网站翻页按钮，选择【下一页】按钮，在*敏*感*词*操作提示框中选择【反复点击下一页】

　　完成上述操作后，[循环翻页]的创建完成

　　特别说明：

　　a。创建[循环翻页]后，优采云将自动单击翻页按钮翻页，从第1页，第2页。。。到最后一页。如果只需要采集特定页面数据，可以在优采云中设置翻页周期数。有关详细信息，请单击“查看页面”转到采集多页数据教程

　　步骤六、编辑字段

　　1、修改字段名称并移动字段位置

　　进入【提取数据】设置页面，删除不必要的字段信息，编辑字段名称

　　2、modify字段XPath

　　为了准确地采集找到每本书细节页面上的字段，我们需要手动修改每个字段的XPath

　　进入[extract data]设置页面，找到目标字段并修改其XPath

　　在本例中，[phase]字段的XPath和备用XPath被修改：

　　阶段XPath://I[@class=“quality desc new”]

　　备选XPath://p[@class=“quality Clearfix”]//以下：：I[1][@class=“quality desc common”]

　　特别说明：

　　a。如何修改XPath？这需要一些XPath知识。单击此处查看XPath学习和示例教程

　　优采云1@

　　事实上，细节页面上每个字段的XPath都需要修改。请选择所需字段，并根据需要进行修改

　　[author]XPath://span[contains（text（），'author'）]//以下同级：：span

　　可选XPath://span[contains（text（），'author'）]//Li[contains（text（），'author'）]/A

　　[publishing]XPath://span[contains（text（），'publisher'）]//以下同级：：span

　　备选XPath://Li[contains（text（），'publisher'）]/span

　　[binding]XPath//span[收录（text（），'binding'）]//以下同级：：span

　　备选XPath//Li[收录（文本（），“绑定”）]/span

　　[发布时间]XPath://span[收录（text（），“发布时间”）]//以下同级：：span

　　备选XPath://Li[收录（text（），“发布时间”）]/span

　　[format]XPath://span[contains（text（），'format'）]//以下同级：：span

　　可选XPath://Li[contains（text（），'folio'）]/span

　　【ISBN】XPath://span[contains（text（），'ISBN'）]//以下同级：：span

　　可选XPath://Li[contains（text（），'isbn'）]/span

　　[version]XPath://span[收录（text（），'version'）]//以下同级：：span

　　备选XPath://Li[contains（text（），'version'）]/span

　　[paper]XPath://span[contains（text（），'paper'）]//以下同级：：span

　　备选XPath://Li[contains（text（），'paper'）]/span

　　[页数]XPath://span[收录（text（），“页数”）]//以下同级：：span

　　可选XPath://Li[contains（text（），'pages'）]/span

　　特别说明：

　　a。如何修改XPath？这需要一些XPath知识。单击此处查看XPath学习和示例教程

　　步骤八、设置滚动并等待执行

　　1、设置卷轴

　　打开某些网页后，需要向下滚动以加载更多数据。因此，还应设置优采云滚动：

　　进入[click element]设置页面，检查滚动方式为[scroll down one screen]、[scroll times]10次和[interval]1秒

　　2、设置【执行前等待】

　　[执行前等待]是指在执行此步骤之前等待一段时间（等待时间根据您的需要设置）。该函数的作用是在执行此步骤之前，等待网页上的采集数据完全加载

　　进入[click element]设置页面，将[wait before execution]设置为3S

　　优采云5@

　　步骤八、开始采集

　　1、单击采集并启动本地采集。启动后自动优采云数据

　　优采云8@

　　特别说明：

　　a。[local采集]使用您自己的计算机执行采集，[cloud采集]使用优采云提供的云服务器采集。单击此处可查看本地采集和云采集的详细信息@

　　2、采集完成后，选择适当的导出方法导出数据。支持导出到excel、CSV、HTML、数据库等。在此处导出为excel。数据示例：

0

2021-09-16

关键词采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤 )

0 个评论

发起人

AI时代内容工厂

关键词采集器(批量输入多个关键词的采集步骤及步骤教程步骤 )

0 个评论

发起人

相关问题