心得:【孔夫子】旧书网关键词搜索书籍采集

优采云发布时间: 2022-09-22 18:25

　　采集场景

　　在孔子旧书网的搜索页面：输入要搜索的图书关键词（包括ISBN），搜索后得到图书列表，然后点击列表中的图书链接即可进入详情页，采集详情页数据。

　　ISBN 是一个国际编号，专门用于识别书籍等文件。如果使用 ISBN 搜索，则搜索结果是针对特定图书的。

　　采集字段

　　作者、标题、售价、定价、库存、状况和出版时间等字段。

　　点击查看高分辨率大图，下面其他图片同理

　　采集结果

　　采集结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例：

　　教程说明

　　本文制作时间：2022/6/9 优采云版本：V8.5.2

　　如因网页改版导致网址或步骤失效，无法采集目标数据，请联系官方客服，我们会及时更正。

　　采集步骤

　　步骤一、打开网页

　　步骤二、批量输入多个关键词并搜索

　　步骤三、创建【循环点击元素】进入每个产品的详情页

　　步骤四、设置[提取数据]，采集必填字段

　　步骤五、建立【翻页循环】，采集多页数据

　　步骤六、编辑字段

　　步骤七、设置滚动和执行前等待

　　步骤八、开始采集

　　以下是具体步骤：

　　步骤一、打开网页

　　在首页【输入框】输入目标网址：点击【开始采集】，优采云会自动打开网页。

　　特别说明：

　　一个。打开网页后，如果【自动识别】启动，请点击【不再自动识别】或【取消识别】将其关闭。因为这篇文章不适合使用【自动识别】。

　　b. 【自动识别】适用于网页自动识别列表、滚动翻页。识别成功后，可以直接启动采集获取数据。详情请点击查看【自动识别】教程

　　步骤二、批量输入多个关键词并搜索

　　打开网页后，通过以下步骤批量输入多个关键词。

　　1、输入1关键词并搜索

　　选中搜索框，在操作提示框中，点击【输入文字】，输入关键词并保存。

　　选择【搜索】按钮，在操作提示框中，点击【点击该元素】，会出现关键词的搜索结果。

　　2、批量输入多个关键词

　　①在【打开网页】步骤后，添加【循环】。

　　②将[输入文本]和[点击元素]都拖到[循环]中。

　　③ 进入【循环】设置页面。选择循环模式为【文本列表】，点击按钮，输入我们准备好的关键字（可以同时输入多个关键字，每行一个）并保存。

　　④进入【文字输入】设置页面，删除原关键词，勾选【使用当前循环中的文字填充输入框】并保存。

　　特别说明：

　　一个。示例中的输入关键词为[Data]、[采集]、[Science]、[Technology]，可以根据自己的需要替换。

　　b.一次最多输入 2W 个关键字。可以准备收录多个关键字的文档，然后将其复制并粘贴到优采云中。

　　步骤三、创建一个【循环-点击元素-提取数据】，采集每个产品的详细页面信息

　　观察网页。在这个网页上，点击标题进入详情页面。以下是具体步骤。

　　①选择页面的第一个标题（因为只识别一个词，所以点击箭头向上定位一层标签，定位一个完整的标题）

　　②在*敏*感*词*操作提示框中，选择【全选】

　　③在*敏*感*词*操作提示框中，选择【循环点击各个链接】

　　然后自动转到第一本书的详细信息页面。

　　特别说明：

　　一个。为什么通过以上3个步骤，【循环-点击元素-提取数据】就创建好了？点击查看采集从列表到详情页面的教程。

　　步骤四、设置[提取数据]，采集必填字段

　　进入详情页面后，采集我们需要的字段。

　　如果是文本类型的字段：鼠标选中需要的字段，在*敏*感*词*提示框中选择[采集该元素的文本]。

　　在示例中采集都是文本字段。

　　步骤五、建立【翻页循环】，采集多页数据

　　如果你只有采集一页数据，可以跳过这一步。

　　如果需要翻页采集多页数据：

　　①过程中点击【循环列表】返回产品列表页面

　　②找到网站下的翻页按钮，选择【下一页】按钮，在*敏*感*词*操作提示框中，选择【循环点击下一页】

　　③点击【循环翻页】，设置执行前等待时间为2秒，点击【点击翻页1】，设置Ajax超时，5-10秒即可

　　以上操作完成后，【循环页面】就创建好了。

　　特别说明：

　　一个。创建【循环翻页】后，优采云会自动点击翻页按钮进行翻页，从第一页、第二页……直到最后一页。如果只需要采集特定页面的数据，可以在优采云中设置翻页循环的次数。详情点击查看翻页到采集多页数据教程。

　　步骤六、编辑字段

　　1、修改字段名

　　进入【提取数据】设置页面，编辑字段名称。

　　2、修改字段 XPath

　　为了准确采集到每个图书详情页的字段，我们需要手动修改每个字段的XPath。

　　进入【提取数据】设置页面，找到目标字段，修改其XPath。

　　示例中修改的是字段[Product Phase]的XPath和alternate XPath：

　　质量 XPath://I[@class="quality-desc-new"]

　　备用 XPath://p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]

　　特别说明：

　　一个。如何修改 XPath？这需要一些 XPath 知识。点击查看XPath学习及示例教程

　　其实详情页每个字段的XPath都需要修改。请选择您需要的字段并根据需要进行修改。

　　[作者] XPath://span[contains(text(),'author')]//following-sibling::span

　　备用 XPath：//span[contains(text(),'author')]|//li[contains(text(),'author')]/a

　　[发布] XPath://span[contains(text(),'publisher')]//following-sibling::span

　　备用 XPath://li[contains(text(),'press')]/span

　　[Binding] XPath //span[contains(text(),'binding')]//following-sibling::span

　　备用XPath //li[contains(text(),'binding')]/span

　　[发布时间] XPath: //span[contains(text(),'发布时间')]//following-sibling::span

　　备用 XPath://li[contains(text(),'published')]/span

　　[folio] XPath://span[contains(text(),'folio')]//following-sibling::span

　　备用 XPath：//li[contains(text(),'folio')]/span

　　[ISBN] XPath://span[contains(text(),'ISBN')]//following-sibling::span

　　备用 XPath://li[contains(text(),'ISBN')]/span

　　[版本] XPath://span[contains(text(),'Version')]//following-sibling::span

　　备用 XPath://li[contains(text(),'version')]/span

　　[论文] XPath://span[contains(text(),'paper')]//following-sibling::span

　　备用 XPath: //li[contains(text(),'paper')]/span

　　[页数] XPath: //span[contains(text(),'pages')]//following-sibling::span

　　备用 XPath://li[contains(text(),'pages')]/span

　　特别说明：

　　一个。如何修改 XPath？这需要一些 XPath 知识。点击查看XPath学习及示例教程

　　步骤八、在执行前设置滚动和等待

　　1、设置滚动

　　有些网页打开后需要向下滚动才能加载更多数据，所以优采云中也要设置滚动：

　　进入【点击元素】设置页面，勾选滚动方式为【向下滚动一屏】，【滚动次数】10次，【每次间隔】1秒。

　　2、设置【执行前等待】

　　【执行前等待】是指在执行这一步之前，等待一段时间（等待时间根据自己的需要自行设置）。再次执行此步骤。

　　进入【List Loop】设置页面，将【Wait before execution】设置为2s。

　　步骤八、开始采集

　　1、点击【保存】，再点击【采集】，点击本地采集的【普通模式】。启动后优采云自动启动采集data.

　　特别说明：

　　一个。 [本地采集]采集使用自己的电脑，[云采集]使用优采云提供的云服务器采集，点击查看查看本地采集和云采集的详细信息。

　　2、采集完成后，选择合适的导出方式导出数据。支持导出到Excel、CSV、HTML、数据库等。这里导出到Excel。数据示例：

　　干货教程:无极伪原创工具 v2.0无极伪原创文章*敏*感*词*

　　Promise伪原创工具是专门用来生成伪原创文章的软件。它的词库收录很多词组，并且具有较高的原创度。它提供了三种处理方式，你可以根据自己的需要来做，只推荐一般处理。

　　软件功能

　　1、简单处理：就是替换同义词，达到伪原创的目的，可读性强。

　　2、一般处理；即在简单处理之上，打断段落，一次性达到伪原创的目的，具有一般的可读性。

　　3、超强处理；在前两个之上，完全打乱了声明。您可以使用逗号和句点作为打乱点，它们基本上是不可读的。

　　软件功能

　　1、关键字可以自由添加锚文本和普通链接，还可以设置添加链接或锚文本的关键词数量，避免关键词堆砌

　　2、您可以批处理伪原创具有任意后缀的文件，例如 txt、htm 和 html。您可以将具有任何后缀的文件伪原创转换为具有任何后缀的文件

　　3、伪原创词库是开源的；本软件目前使用的词库与市面上大部分伪原创软件的词库相同，均属于一级词库。我们将词库公开和开源，用户可以任意修改词库中的词组。目前词库有58568个词组，伪原创的原创度非常高，不低于市面上任何其他软件伪原创。

　　4、benwuji伪原创软件完全免费。生成文章时，不会做任何花招，不会插入广告等恶意行为。没有限制，完全免费！

　　指示

　　1、先添加需要的目录伪原创文章

　　2、设置伪原创，添加关键字和链接，查看处理方式

　　3、点击开始任务

0

2022-09-22

关键词采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

心得:【孔夫子】旧书网关键词搜索书籍采集

0 个评论

发起人

AI时代内容工厂

心得:【孔夫子】旧书网关键词搜索书籍采集

0 个评论

发起人

相关问题