心得:【孔夫子】旧书网关键词搜索书籍采集

优采云 发布时间: 2022-09-22 18:25

  心得:【孔夫子】旧书网关键词搜索书籍采集

  采集场景

  在孔子旧书网的搜索页面:输入要搜索的图书关键词(包括ISBN),搜索后得到图书列表,然后点击列表中的图书链接即可进入详情页,采集详情页数据。

  ISBN 是一个国际编号,专门用于识别书籍等文件。如果使用 ISBN 搜索,则搜索结果是针对特定图书的。

  采集字段

  作者、标题、售价、定价、库存、状况和出版时间等字段。

  点击查看高分辨率大图,下面其他图片同理

  采集结果

  采集结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:

  教程说明

  本文制作时间:2022/6/9 优采云版本:V8.5.2

  如因网页改版导致网址或步骤失效,无法采集目标数据,请联系官方客服,我们会及时更正。

  采集步骤

  步骤一、打开网页

  步骤二、批量输入多个关键词并搜索

  步骤三、创建【循环点击元素】进入每个产品的详情页

  步骤四、设置[提取数据],采集必填字段

  步骤五、建立【翻页循环】,采集多页数据

  步骤六、编辑字段

  步骤七、设置滚动和执行前等待

  步骤八、开始采集

  以下是具体步骤:

  步骤一、打开网页

  在首页【输入框】输入目标网址:点击【开始采集】,优采云会自动打开网页。

  特别说明:

  一个。打开网页后,如果【自动识别】启动,请点击【不再自动识别】或【取消识别】将其关闭。因为这篇文章不适合使用【自动识别】。

  b. 【自动识别】适用于网页自动识别列表、滚动翻页。识别成功后,可以直接启动采集获取数据。详情请点击查看【自动识别】教程

  步骤二、批量输入多个关键词并搜索

  打开网页后,通过以下步骤批量输入多个关键词。

  1、输入1关键词并搜索

  选中搜索框,在操作提示框中,点击【输入文字】,输入关键词并保存。

  选择【搜索】按钮,在操作提示框中,点击【点击该元素】,会出现关键词的搜索结果。

  2、批量输入多个关键词

  ①在【打开网页】步骤后,添加【循环】。

  ②将[输入文本]和[点击元素]都拖到[循环]中。

  

  ③ 进入【循环】设置页面。选择循环模式为【文本列表】,点击按钮,输入我们准备好的关键字(可以同时输入多个关键字,每行一个)并保存。

  ④进入【文字输入】设置页面,删除原关键词,勾选【使用当前循环中的文字填充输入框】并保存。

  特别说明:

  一个。示例中的输入关键词为[Data]、[采集]、[Science]、[Technology],可以根据自己的需要替换。

  b.一次最多输入 2W 个关键字。可以准备收录多个关键字的文档,然后将其复制并粘贴到 优采云 中。

  步骤三、创建一个【循环-点击元素-提取数据】,采集每个产品的详细页面信息

  观察网页。在这个网页上,点击标题进入详情页面。以下是具体步骤。

  ①选择页面的第一个标题(因为只识别一个词,所以点击箭头向上定位一层标签,定位一个完整的标题)

  ②在*敏*感*词*操作提示框中,选择【全选】

  ③在*敏*感*词*操作提示框中,选择【循环点击各个链接】

  然后自动转到第一本书的详细信息页面。

  特别说明:

  一个。为什么通过以上3个步骤,【循环-点击元素-提取数据】就创建好了?点击查看采集从列表到详情页面的教程。

  步骤四、设置[提取数据],采集必填字段

  进入详情页面后,采集我们需要的字段。

  如果是文本类型的字段:鼠标选中需要的字段,在*敏*感*词*提示框中选择[采集该元素的文本]。

  在示例中 采集 都是文本字段。

  步骤五、建立【翻页循环】,采集多页数据

  如果你只有采集一页数据,可以跳过这一步。

  如果需要翻页采集多页数据:

  ①过程中点击【循环列表】返回产品列表页面

  ②找到网站下的翻页按钮,选择【下一页】按钮,在*敏*感*词*操作提示框中,选择【循环点击下一页】

  ③点击【循环翻页】,设置执行前等待时间为2秒,点击【点击翻页1】,设置Ajax超时,5-10秒即可

  以上操作完成后,【循环页面】就创建好了。

  特别说明:

  一个。创建【循环翻页】后,优采云会自动点击翻页按钮进行翻页,从第一页、第二页……直到最后一页。如果只需要采集特定页面的数据,可以在优采云中设置翻页循环的次数。详情点击查看翻页到采集多页数据教程。

  步骤六、编辑字段

  1、修改字段名

  进入【提取数据】设置页面,编辑字段名称。

  2、修改字段 XPath

  为了准确采集到每个图书详情页的字段,我们需要手动修改每个字段的XPath。

  进入【提取数据】设置页面,找到目标字段,修改其XPath。

  示例中修改的是字段[Product Phase]的XPath和alternate XPath:

  质量 XPath://I[@class="quality-desc-new"]

  备用 XPath://p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]

  

  特别说明:

  一个。如何修改 XPath?这需要一些 XPath 知识。点击查看XPath学习及示例教程

  其实详情页每个字段的XPath都需要修改。请选择您需要的字段并根据需要进行修改。

  [作者] XPath://span[contains(text(),'author')]//following-sibling::span

  备用 XPath://span[contains(text(),'author')]|//li[contains(text(),'author')]/a

  [发布] XPath://span[contains(text(),'publisher')]//following-sibling::span

  备用 XPath://li[contains(text(),'press')]/span

  [Binding] XPath //span[contains(text(),'binding')]//following-sibling::span

  备用XPath //li[contains(text(),'binding')]/span

  [发布时间] XPath: //span[contains(text(),'发布时间')]//following-sibling::span

  备用 XPath://li[contains(text(),'published')]/span

  [folio] XPath://span[contains(text(),'folio')]//following-sibling::span

  备用 XPath://li[contains(text(),'folio')]/span

  [ISBN] XPath://span[contains(text(),'ISBN')]//following-sibling::span

  备用 XPath://li[contains(text(),'ISBN')]/span

  [版本] XPath://span[contains(text(),'Version')]//following-sibling::span

  备用 XPath://li[contains(text(),'version')]/span

  [论文] XPath://span[contains(text(),'paper')]//following-sibling::span

  备用 XPath: //li[contains(text(),'paper')]/span

  [页数] XPath: //span[contains(text(),'pages')]//following-sibling::span

  备用 XPath://li[contains(text(),'pages')]/span

  特别说明:

  一个。如何修改 XPath?这需要一些 XPath 知识。点击查看XPath学习及示例教程

  步骤八、在执行前设置滚动和等待

  1、设置滚动

  有些网页打开后需要向下滚动才能加载更多数据,所以优采云中也要设置滚动:

  进入【点击元素】设置页面,勾选滚动方式为【向下滚动一屏】,【滚动次数】10次,【每次间隔】1秒。

  2、设置【执行前等待】

  【执行前等待】是指在执行这一步之前,等待一段时间(等待时间根据自己的需要自行设置)。再次执行此步骤。

  进入【List Loop】设置页面,将【Wait before execution】设置为2s。

  步骤八、开始采集

  1、点击【保存】,再点击【采集】,点击本地采集的【普通模式】。启动后优采云自动启动采集data.

  特别说明:

  一个。 [本地采集]采集使用自己的电脑,[云采集]使用优采云提供的云服务器采集,点击查看查看本地采集和云采集的详细信息。

  2、采集完成后,选择合适的导出方式导出数据。支持导出到Excel、CSV、HTML、数据库等。这里导出到Excel。数据示例:

  干货教程:无极伪原创工具 v2.0无极伪原创文章*敏*感*词*

  Promise伪原创工具是专门用来生成伪原创文章的软件。它的词库收录很多词组,并且具有较高的原创度。它提供了三种处理方式,你可以根据自己的需要来做,只推荐一般处理。

  软件功能

  1、简单处理:就是替换同义词,达到伪原创的目的,可读性强。

  2、一般处理;即在简单处理之上,打断段落,一次性达到伪原创的目的,具有一般的可读性。

  

  3、超强处理;在前两个之上,完全打乱了声明。您可以使用逗号和句点作为打乱点,它们基本上是不可读的。

  软件功能

  1、关键字可以自由添加锚文本和普通链接,还可以设置添加链接或锚文本的关键词数量,避免关键词堆砌

  2、您可以批处理 伪原创 具有任意后缀的文件,例如 txt、htm 和 html。您可以将具有任何后缀的文件 伪原创 转换为具有任何后缀的文件

  3、伪原创词库是开源的;本软件目前使用的词库与市面上大部分伪原创软件的词库相同,均属于一级词库。我们将词库公开和开源,用户可以任意修改词库中的词组。目前词库有58568个词组,伪原创的原创度非常高,不低于市面上任何其他软件伪原创。

  4、benwuji伪原创 软件完全免费。生成文章时,不会做任何花招,不会插入广告等恶意行为。没有限制,完全免费!

  

  指示

  1、先添加需要的目录伪原创文章

  2、设置伪原创,添加关键字和链接,查看处理方式

  3、点击开始任务

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线