教程:站长工具 – BD站长工具

优采云 发布时间: 2022-11-17 19:28

  教程:站长工具 – BD站长工具

  网站管理员工具 – BD 网站管理员工具已达到 850 名访问者。如需查询本站相关权重信息,可点击“爱站数据”、“华兹数据”进入;使用当前的网站数据作为参考,建议大家以爱站数据为准,更多的网站价值评价因素如:站长工具-BD站长工具访问速度、搜索引擎 收录 和索引量、用户体验等;当然,要评价一个网站的价值,最重要的还是要根据自己的需要和需要。一些具体的数据需要和站长工具-BD站长工具的站长协商。比如站的IP、PV、跳出率等等!

  

  关于站长工具 – BD站长工具特别声明

  

  本站酷开导航提供的站长工具-BD站长工具均来自互联网,不保证外部链接的准确性和完整性。同时,外部链接的指向实际上不受酷开导航控制。2020年12月18日晚9点11分收录,本网页内容合规合法。后面网页内容如有违规,可直接联系网站管理员删除。Kukai Navigator 不承担任何责任。

  干货教程:爬虫教程:如何批量采集知乎

  采集网站

  【场景描述】在搜狗知乎搜索栏搜索知乎,按关键词搜索采集知乎文字

  【入口网址】

  【采集内容】

  这个采集的数据就是知乎文章的标题和内容

  l 思想分析

  功能点总结:关键词配置链接、翻页、链接提取、数据提取

  配置思路

  l配置步骤

  1.新建一个采集任务

  选择【采集Configuration】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集地址]框,[[任务名称]可自定义。由于这个采集是通过关键词采集相关的内容,所以[采集类型]要勾选【关键词采集】,填写。

  点击【完成】,该任务出现在任务列表中,即表示创建成功。

  2. 关键词 配置

  ①在入口页搜索不同的关键词,找到不同的关键词搜索结果的链接,只替换图中红框部分,红框部分为转码后的关键词 , 所以关键词链接的拼接规则如下:

  关键词

  ie=utf8&pid=sogou-wsse-ff111e4a5406ed40&insite=

  ② 得到关键词链接拼接规则后,开始配置关键词搜索:

  点击屏幕右下角【高级配置】,在【请求地址】中填写采集地址,点击【+】添加参数,名称可自定义。这个配置是为了后面的脚本使用关键词把它从关键词列表里拿出来,配置完成后点击【确定】。

  ③ 由于本模板以关键词搜索为入口,在【模板提取配置】中选择频道(即任务名称),选择【脚本窗口】,在频道中配置关键词搜索。

  ④具体配置脚本如下:

  ⑤效果预览:

  在【关键词列表】中填写关键词,点击【保存】,点击【采集预览】即可查看配置效果。

  3.翻页配置

  关键词配置完成,下一步就是获取关键词搜索结果中的所有翻页链接。

  ① 右击【默认模板:01】,选择添加链接提取。

  ②同时选择【脚本窗口】配置翻页脚本。

  

  ③翻开关键词搜索到的网页,观察网页地址的变化,发现原来的地址增加了“&sut=2674&sst0=59&lkt=1%2C44%2C44&page=2&ie=utf8”的部分,随着页码的变化,只有page参数的值在变化。page是页码的配置参数,其他不变的部分可以直接拼接成链接。

  ④具体配置脚本如下:

  ⑤效果预览:

  4.链接提取

  这一步是从得到的翻页链接中提取每页的所有知乎问题链接:

  ①在原有模板的基础上,右击选择【添加模板】

  ② 右键点击新添加的模板,选择【添加链接提取】

  ③以第一页为例查看网页结构(可以使用F12查看,但需要确认源代码与F12内容一致)。

  通过查看网页的结构,发现所有需要的链接都收录在“results”类中。每个链接块对应一个“vrwrap”类。我们需要的所有内容都收录在“vrwrap”类的h3节点“vrTitle”中,“vrTitle”的子节点a标签是内容和头部内容的链接地址。

  ④ 同样选择当前链接提取,在【脚本窗口】中编写脚本。脚本的具体内容如下:

  ⑤效果预览:

  5.数据提取

  ① 链接提取完成后,进入资料页。在原有模板的基础上,右键选择【添加模板】,对于新添加的模板,右键【添加数据提取】。

  ② 这时候应该完成建立数据表的工作:

  一个。选择【创建数据表】,点击【采集数据表结构】中的【+】,可以添加数据表,名称可以自定义。

  b. 选中数据表,在数据表结构中点击【+】,添加字段。如图所示,我们需要的字段都可以添加到数据表中,并且额外添加网页地址、获取时间、任务名称等,方便后面查找内容。另外需要注意的是,每个表单都需要配置一个主键字段,需要用到脚本字段。只有在高级类型中选择了脚本值,才能对脚本进行操作。其他字段可根据实际需要配置。

  ③数据表配置完成,在右侧选择【数据提取】配置数据属性,为表单选择新建的“知乎”数据表,可以看到显示的表单中的字段在右侧。

  ④需要配置哪个字段,在右侧的字段属性中点击字段进行配置,选择脚本配置的字段,在脚本窗口配置代码。

  id字段:主键字段,采集内容选择[主键]-[页面主键],主键为当前网页的MD5值。

  title字段:网页标题字段,采集内容选择[网页信息]-[网页标题]

  content field:文本域,采集内容选择【选择区域可见文本】-【文章文本内容】

  keywords字段:关键词字段,该字段由脚本处理,由于关键词字段在频道脚本中只是一个局部变量,不会出现后面的页面,所以关键词字段需要将 关键词 字段赋值给全局变量,才能在数据抽取时抽取该字段。在这里,它被分配给全局变量标题。

  同样,数据表需要采集当前数据出现在哪一页,而页面数据也是翻页模板中的局部变量,无法提取后续模板,所以需要记录当前翻页脚本中的页数 在全局变量中,还要记录标题中的页码,并用“#”和关键词分隔。

  

  当前数据出现在一页的第一行,页码已经记录在全局变量title中。当前链接行号也是唯一出现在链接提取中的局部变量。也需要记录传值,所以标题中也赋了行号,用“*”和页码隔开。

  所以title中记录的最终值收录以下部分:

  对于关键字字段,只需将全局变量标题中的“#”左边部分去掉即可。

  page字段:页码,同keywords字段,取全局变量title中“#”和“*”之间的中间部分。

  raw字段:行数,同keywords字段,取全局变量标题中“*”右边的部分。

  gettime字段:网页采集时间,采集内容选择[时间信息]-[网页获取时间]

  url字段:网页地址,采集内容选择[网页信息]-[网页地址]

  web 字段:网站name,脚本返回“知乎”。

  author字段:可视化配置即可,【采集Content】选择【选择区域可见文本】-【选择区域所有文本】,【定位类型】选择【标准定位】,Ctrl+鼠标左键按钮选择选择区域,点击下方【字段定位值】,确认选择区域,字段配置完成。

  temp_name字段:模板名称,采集内容选择[采集任务信息]-[任务名称]

  ⑤完成以上所有字段配置,效果预览如下:

  l采集步骤

  模板配置完成,采集预览没问题后,数据就可以采集了。

  ① 首先创建一个采集数据表:

  选择【建立数据表】,在【表单列表】中点击模板的表单,在【关联数据表】中选择【创建】,自定义表名,这里命名为知乎(注意不能使用数字和特殊符号命名),点击【确定】。

  创建完成后,查看数据表。

  ②选择【Data采集】,勾选任务名称,点击【Start采集】即可正式启动采集。

  ③在【数据视图】中,选择数据表,可以查看采集数据。

  l 课后复习

  GetSearch():返回 关键词 列表中的 关键词。

  Search():重复调用以遍历 关键词 列表。

  FindClass(class name, label type, start to find nodes):当符合条件的类名唯一时,使用类名查找节点。

  FindName(标签名,开始查找节点):当满足条件的数据标签在搜索范围内唯一时,可以使用标签名查找标签节点。

  GetTextAll(需要获取文本的节点,使用的字符编码):获取html标签节点和所有子节点的可见文本。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线