心得:前嗅教你大数据:采集孔夫子旧书网

优采云 发布时间: 2022-10-17 11:18

  心得:前嗅教你大数据:采集孔夫子旧书网

  l 采集网站

  【场景描述】采集孔子旧书网络资料。

  [来源网站简介] 孔子图书网是中国专业的古籍交易平台。它汇集了全国13000家网络书店和50000个书摊,展示了多达9000万种书籍;大量具有采集价值的古籍、善本(明清民国善本、善本期刊、名人水墨作品、民国善本、绝版书籍、等)在kongnet上展示和交易,长期吸引大量学者、研究人员和藏书人在线关注和参与。

  【使用工具】在嗅探ForeSpider数据采集系统之前,免费下载:

  ForeSpider免费版下载地址

  【入口网址】/Cxianzhuang/cat_8002/

  【采集内容】

  采集孔子旧书网书籍的书名、作者、价格、介绍详情等基本信息。

  【采集效果】

  如下所示:

  l 思想分析

  配置思路概述:

  l 配置步骤

  1.新建采集任务

  选择【采集配置】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集Address]框,[Task Name]可以自定义,点击Next。

  2.获取翻页链接

  提取翻页链接的方法有以下三种:

  ①智能过滤方式:

  打开前几个翻页链接,观察链接规则。

  第 2 页:/Cxianzhuang/cat_8002w2/

  第三页:/Cxianzhuang/cat_8002w3/

  第四页:/Cxianzhuang/cat_8002w4/

  根据规则输入过滤规则:\dw\d/

  (其中 \d 表示数字字符串)

  

  配置好后点击采集预览,发现翻页链接已经到了采集。

  ②方法二:定位值法 按住ctrl+鼠标点击任意翻页,然后按住shift+鼠标点击任意未选择的翻页扩大选择,直到所有翻页都被选中,确认后保存选择它。

  采集预览,发现所有翻页都已提取。

  ③方法三:地址/标题过滤

  与智能过滤类似,首先观察翻页链接的规则(步骤请参考方法一)。找到规则后,使用地址过滤的方法过滤保存,如下图:

  ④关联模板,提取翻页链接,关联模板01。

  3.提取列表链接

  ①新建链接提取,将其名称改为【列表链接】,将翻页链接提取重命名为【翻页链接】。

  ②使用链接过滤的方法获取列表链接,先采集预览,打开列表链接预览结果,发现该书的链接规则为:

  一串数字/一串数字/

  所以设置地址过滤,过滤掉收录这个规则的链接,如下图,其中\d代表一串数字。

  ③采集预览看是否提取成功。

  4.提取数据

  ①新建一个抽取模板,在其下新建一个数据抽取。具体操作如下:

  ②创建数据表,如下图所示建立数据表。(注意字段属性等要严格按照下图设置)

  ③ 将新建的数据表与模板关联,如下图所示:

  ④填写样本数据,采集预览,复制任意新闻链接。

  

  ⑤ 将链接粘贴到本模板的示例地址中,双击内置浏览器空白处加载此链接。

  ⑥关联模板

  ⑦数据值

  使用定位值的方法,title字段如下:

  作者字段如下所示:

  其他字段也以相同的方式定位和赋值。

  ⑧采集预览

  l 采集步骤

  模板配置完成后,采集预览没有问题,可以进行数据采集。

  1.创建数据表格

  选择【数据创建表】,在【表单列表】中点击模板的表单,在【关联数据表】中选择【创建】,自定义表名,这里命名为【孔夫子】(注意数字和特殊符号不能用于名称 ),请单击 [确定]。创建完成后,查看数据表,点击右上角的保存按钮。

  2. 开始采集

  选择【数据采集】,勾选任务名称,点击【启动采集】,正式启动采集。

  3. 导出数据

  采集结束后,可以选择数据表查看【数据浏览】中的采集数据,并导出数据。

  4. 导出的文件打开如下图:

  本教程仅供教育使用,严禁用于商业用途!

  l 前嗅觉介绍

  千秀大数据,国内领先的研发大数据专家,多年致力于大数据技术的研发,自主研发了一整套数据采集,分析、处理、管理、应用和营销。大数据产品。千秀致力于打造国内首个深度大数据平台!

  汇总:抖音采集工具

  您可以采集作者的所有作品(包括作者喜欢的作品)、单个视频作品、特定主题挑战下的指定数量的作品以及使用特定音乐的指定数量的作品。

  主要是为了方便对作品下载的管理,分别保存,同时检测作者作品、话题挑战、音乐的更新,有新作品时才下载新作品。

  对于之前使用过“批处理采集抖音Works”工具的朋友,新版控制台工具可以自动迁移数据,当然也可以继续使用之前的工具。

  我不再重复介绍。下载过本帖旧版工具的人自然会知道如何使用。压缩包中还有获取控制台操作图片和视频的说明和短链接。

  

  已提供Python最新GUI版,各作品采集的获取链接可在网盘的demo视频中找到。

  新版工具下载地址:,访问密码:52pj

  Lanzous云盘lanzous无法访问(21.5.13),请使用lanzoui访问(本帖链接已更改)

  添加另一个百度网盘地址:,提取码:r7c6 旧版工具下载地址(或原版):,访问密码:3345

  如果64位版本有问题,可以试试32位版本,如果还是不行,可以试试XP版本

  

  XP版的Python版已经提供,Gui版的VB版就不需要了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线