心得:【孔夫子】旧书网关键词搜索书籍采集
优采云 发布时间: 2022-09-22 18:25采集场景
在孔子旧书网的搜索页面:输入要搜索的图书关键词(包括ISBN),搜索后得到图书列表,然后点击列表中的图书链接即可进入详情页,采集详情页数据。
ISBN 是一个国际编号,专门用于识别书籍等文件。如果使用 ISBN 搜索,则搜索结果是针对特定图书的。
采集字段
作者、标题、售价、定价、库存、状况和出版时间等字段。
点击查看高分辨率大图,下面其他图片同理
采集结果
采集结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:2022/6/9 优采云版本:V8.5.2
如因网页改版导致网址或步骤失效,无法采集目标数据,请联系官方客服,我们会及时更正。
采集步骤
步骤一、打开网页
步骤二、批量输入多个关键词并搜索
步骤三、创建【循环点击元素】进入每个产品的详情页
步骤四、设置[提取数据],采集必填字段
步骤五、建立【翻页循环】,采集多页数据
步骤六、编辑字段
步骤七、设置滚动和执行前等待
步骤八、开始采集
以下是具体步骤:
步骤一、打开网页
在首页【输入框】输入目标网址:点击【开始采集】,优采云会自动打开网页。
特别说明:
一个。打开网页后,如果【自动识别】启动,请点击【不再自动识别】或【取消识别】将其关闭。因为这篇文章不适合使用【自动识别】。
b. 【自动识别】适用于网页自动识别列表、滚动翻页。识别成功后,可以直接启动采集获取数据。详情请点击查看【自动识别】教程
步骤二、批量输入多个关键词并搜索
打开网页后,通过以下步骤批量输入多个关键词。
1、输入1关键词并搜索
选中搜索框,在操作提示框中,点击【输入文字】,输入关键词并保存。
选择【搜索】按钮,在操作提示框中,点击【点击该元素】,会出现关键词的搜索结果。
2、批量输入多个关键词
①在【打开网页】步骤后,添加【循环】。
②将[输入文本]和[点击元素]都拖到[循环]中。
③ 进入【循环】设置页面。选择循环模式为【文本列表】,点击按钮,输入我们准备好的关键字(可以同时输入多个关键字,每行一个)并保存。
④进入【文字输入】设置页面,删除原关键词,勾选【使用当前循环中的文字填充输入框】并保存。
特别说明:
一个。示例中的输入关键词为[Data]、[采集]、[Science]、[Technology],可以根据自己的需要替换。
b.一次最多输入 2W 个关键字。可以准备收录多个关键字的文档,然后将其复制并粘贴到 优采云 中。
步骤三、创建一个【循环-点击元素-提取数据】,采集每个产品的详细页面信息
观察网页。在这个网页上,点击标题进入详情页面。以下是具体步骤。
①选择页面的第一个标题(因为只识别一个词,所以点击箭头向上定位一层标签,定位一个完整的标题)
②在*敏*感*词*操作提示框中,选择【全选】
③在*敏*感*词*操作提示框中,选择【循环点击各个链接】
然后自动转到第一本书的详细信息页面。
特别说明:
一个。为什么通过以上3个步骤,【循环-点击元素-提取数据】就创建好了?点击查看采集从列表到详情页面的教程。
步骤四、设置[提取数据],采集必填字段
进入详情页面后,采集我们需要的字段。
如果是文本类型的字段:鼠标选中需要的字段,在*敏*感*词*提示框中选择[采集该元素的文本]。
在示例中 采集 都是文本字段。
步骤五、建立【翻页循环】,采集多页数据
如果你只有采集一页数据,可以跳过这一步。
如果需要翻页采集多页数据:
①过程中点击【循环列表】返回产品列表页面
②找到网站下的翻页按钮,选择【下一页】按钮,在*敏*感*词*操作提示框中,选择【循环点击下一页】
③点击【循环翻页】,设置执行前等待时间为2秒,点击【点击翻页1】,设置Ajax超时,5-10秒即可
以上操作完成后,【循环页面】就创建好了。
特别说明:
一个。创建【循环翻页】后,优采云会自动点击翻页按钮进行翻页,从第一页、第二页……直到最后一页。如果只需要采集特定页面的数据,可以在优采云中设置翻页循环的次数。详情点击查看翻页到采集多页数据教程。
步骤六、编辑字段
1、修改字段名
进入【提取数据】设置页面,编辑字段名称。
2、修改字段 XPath
为了准确采集到每个图书详情页的字段,我们需要手动修改每个字段的XPath。
进入【提取数据】设置页面,找到目标字段,修改其XPath。
示例中修改的是字段[Product Phase]的XPath和alternate XPath:
质量 XPath://I[@class="quality-desc-new"]
备用 XPath://p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]
特别说明:
一个。如何修改 XPath?这需要一些 XPath 知识。点击查看XPath学习及示例教程
其实详情页每个字段的XPath都需要修改。请选择您需要的字段并根据需要进行修改。
[作者] XPath://span[contains(text(),'author')]//following-sibling::span
备用 XPath://span[contains(text(),'author')]|//li[contains(text(),'author')]/a
[发布] XPath://span[contains(text(),'publisher')]//following-sibling::span
备用 XPath://li[contains(text(),'press')]/span
[Binding] XPath //span[contains(text(),'binding')]//following-sibling::span
备用XPath //li[contains(text(),'binding')]/span
[发布时间] XPath: //span[contains(text(),'发布时间')]//following-sibling::span
备用 XPath://li[contains(text(),'published')]/span
[folio] XPath://span[contains(text(),'folio')]//following-sibling::span
备用 XPath://li[contains(text(),'folio')]/span
[ISBN] XPath://span[contains(text(),'ISBN')]//following-sibling::span
备用 XPath://li[contains(text(),'ISBN')]/span
[版本] XPath://span[contains(text(),'Version')]//following-sibling::span
备用 XPath://li[contains(text(),'version')]/span
[论文] XPath://span[contains(text(),'paper')]//following-sibling::span
备用 XPath: //li[contains(text(),'paper')]/span
[页数] XPath: //span[contains(text(),'pages')]//following-sibling::span
备用 XPath://li[contains(text(),'pages')]/span
特别说明:
一个。如何修改 XPath?这需要一些 XPath 知识。点击查看XPath学习及示例教程
步骤八、在执行前设置滚动和等待
1、设置滚动
有些网页打开后需要向下滚动才能加载更多数据,所以优采云中也要设置滚动:
进入【点击元素】设置页面,勾选滚动方式为【向下滚动一屏】,【滚动次数】10次,【每次间隔】1秒。
2、设置【执行前等待】
【执行前等待】是指在执行这一步之前,等待一段时间(等待时间根据自己的需要自行设置)。再次执行此步骤。
进入【List Loop】设置页面,将【Wait before execution】设置为2s。
步骤八、开始采集
1、点击【保存】,再点击【采集】,点击本地采集的【普通模式】。启动后优采云自动启动采集data.
特别说明:
一个。 [本地采集]采集使用自己的电脑,[云采集]使用优采云提供的云服务器采集,点击查看查看本地采集和云采集的详细信息。
2、采集完成后,选择合适的导出方式导出数据。支持导出到Excel、CSV、HTML、数据库等。这里导出到Excel。数据示例:
干货教程:无极伪原创工具 v2.0无极伪原创文章*敏*感*词*
Promise伪原创工具是专门用来生成伪原创文章的软件。它的词库收录很多词组,并且具有较高的原创度。它提供了三种处理方式,你可以根据自己的需要来做,只推荐一般处理。
软件功能
1、简单处理:就是替换同义词,达到伪原创的目的,可读性强。
2、一般处理;即在简单处理之上,打断段落,一次性达到伪原创的目的,具有一般的可读性。
3、超强处理;在前两个之上,完全打乱了声明。您可以使用逗号和句点作为打乱点,它们基本上是不可读的。
软件功能
1、关键字可以自由添加锚文本和普通链接,还可以设置添加链接或锚文本的关键词数量,避免关键词堆砌
2、您可以批处理 伪原创 具有任意后缀的文件,例如 txt、htm 和 html。您可以将具有任何后缀的文件 伪原创 转换为具有任何后缀的文件
3、伪原创词库是开源的;本软件目前使用的词库与市面上大部分伪原创软件的词库相同,均属于一级词库。我们将词库公开和开源,用户可以任意修改词库中的词组。目前词库有58568个词组,伪原创的原创度非常高,不低于市面上任何其他软件伪原创。
4、benwuji伪原创 软件完全免费。生成文章时,不会做任何花招,不会插入广告等恶意行为。没有限制,完全免费!
指示
1、先添加需要的目录伪原创文章
2、设置伪原创,添加关键字和链接,查看处理方式
3、点击开始任务