关键词采集文章发布(网页抓取工具采集的原理和过程(一)(组图))

优采云 发布时间: 2021-12-05 18:08

  关键词采集文章发布(网页抓取工具采集的原理和过程(一)(组图))

  熟悉优采云采集器的朋友都知道,采集过程中遇到的问题可以通过官网的FAQ找回,所以这里我们就取采集以faq为例来说明网页爬虫采集的原理和过程。【本文来自:】

  这个例子是为了演示地址。

  (1)创建一个新的采集规则

  选择一个组,右击,选择“新建任务”,如下图:

  

  (2)添加起始地址

  假设这里我们需要采集 5页数据。

  解析URL变量的规律

  第一页地址:

  第二页地址:

  第三页地址:

  由此我们可以推断出p=后面的数字是分页的意思,我们用[地址参数]来表示:

  所以设置如下:

  

  地址格式:用[地址参数]表示改变的页码。

  数字变化:从1开始,即第一页;每增加1,即每页变化的次数;一共5条,也就是一共采集5页。

  预览:采集器会根据上面的设置生成一部分URL,让你判断添加的是否正确。

  然后确认

  (3)【普通模式】获取内容URL

  普通模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。

  下面我就通过自动获取地址链接+设置区域的方式来教大家如何获取。

  查看页面源码,找到文章地址所在的区域:

  

  设置如下:

  注:更详细的分析说明请参考本手册:

  操作指南> 软件操作> URL 采集规则> 获取内容URL

  

  点击网址采集测试查看测试结果

  

  (3)内容采集网址

  以标签为例说明采集

  注:更详细的分析说明请参考本手册

  操作指南>软件操作>内容采集规则>标签编辑

  我们首先查看它的页面源码,找到我们的“title”所在的代码:

  导入Excle弹出对话框~打开Excle时出错-优采云采集器帮助中心

  分析表明: 开头的字符串是:

  结束字符串是:

  数据处理-内容替换/排除:需要替换-优采云采集器帮助中心清空

  

  设置内容标签的原理类似,在源码中找到内容的位置

  

  分析表明: 开头的字符串是:

  结束字符串是:

  数据处理-HTML标签排除:过滤不需要的A链接等。

  

  设置另一个“源”字段

  

  这么简单的文章采集规则就完成了。不知道网友们有没有学到。网络爬虫工具,顾名思义,适用于网页上的数据爬取。从上面的例子大家可以看出,这类软件主要是通过源码分析来分析数据的。还有一些情况这里没有列出,比如登录采集,使用代理采集等,如果你对网络爬虫工具感兴趣,可以登录采集官网@采集器 自学。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线