文章网址采集器(这篇采集器程序实现爬虫程序实现程序实现原理是写给那些觉得采集难)

优采云 发布时间: 2021-09-07 12:11

  文章网址采集器(这篇采集器程序实现爬虫程序实现程序实现原理是写给那些觉得采集难)

  这个采集器爬虫程序实现原理是写给那些觉得采集有难度又不知道怎么使用采集器的人的。希望大家看完这篇文章Crawler后,可以独立使用采集器。当然,最终目的是帮助大家省钱。 采集rules 可以卖钱,真的很好玩。

  作为一个完整的采集网站程序,需要满足两点。第一个是抓取数据,第二个是发布数据。这个文章会先以优采云采集器为例来谈谈如何爬取数据。因篇幅问题,下次补上数据。

  采集principle

  模拟正常请求获取服务器返回的数据,然后通过以下方式(但不限于以下方式)获取需要的数据,如字符串搜索、字符串截取、正则匹配、Xpath规则、 json数据分析等,整个采集主要是查找网络地址规律、拼接地址、模拟访问请求、获取数据、提取数据的过程。

  数据来源

  采集之初我们要知道你的采集目标数据来自哪里,是网站、小程序还是APP。只有了解了数据的来源,才能使用相应的手段来获取数据。为方便演示,我以最简单的网站数据源为例。

  采集data

  采集data 的过程其实就是模拟一个真实的获取数据的请求。但是,得到的数据不一定就是我们需要的数据。一般我们需要对获取到的数据进行处理,尤其是网站采集,基本需要处理。

  查找采集list 页面

  当你想要采集一个网站文章时,你需要提供文章地址,但是我们不能先复制文章地址再使用采集软件。在网站 中,通常会有一个列表。这个列表是文章的地址。这里以dux主题官网和大前端为例进行讲解。

  采集大前端设计类别下的所有文章,首先找到类别地址:,在这个类别地址中,我们可以看到有很多文章地址,只需提取所有文章地址,你可以继续下一步采集。在此之前,我们还需要找到类别地址中每个页面的规则,否则只提供类别的首页地址,我们只能得到文章的10个地址(以类别1的数量为准)页文章)。

  点击大前端设计类的第二页,可以看到它的地址与第一页不同。但是我们还是可以通过修改页面后面的页码参数为1来正确访问第一页的内容。 可以确定大前端dux主题文章list的分类存在,地址规律为*

  打开优采云,新建采集任务,配置类别文章列表URL规则如下:

  

  各种采集器爬虫程序实现原理的科普文章

  在地址格式中,使用【地址参数】替换变化,然后选择【地址参数】作为数字变化。目前大前端的设计分类有9个页面,所以这里填9个。

  获取文章address

  获取文章地址也很简单。在浏览器中使用F12查看文章列表中的文章链接,如下:

  

  各种采集器爬虫程序实现原理的科普文章

  这里有一点需要注意。我没有使用标签来查找文章地址,因为在整个网页中,不仅仅是文章标题会有标签。为防止查找到我们不需要的地址,这里使用的条件多加标注。 优采云规则配置如下:

  

  各种采集器爬虫程序实现原理的科普文章

  在获取内容URL下选择手动设置获取内容的规则,可能不会自动找到我们需要的地址,一般选择手动。然后抽取规则就是上面红框中的网页结构元素,然后用[参数]和(*)代替我们需要的和我们忽略的,[参数]就是我们需要的,(*)表示匹配all,比如文章Title 我们不需要,标题会变,所以用match all。

  从拼接地址中可以得到提取规则中匹配[参数]得到的数据,比如我上面匹配的文章地址,在拼接地址填写[参数1]会得到第一个提取规则使用来自[参数]的匹配数据。另外,拼接地址可以采用“固定地址[参数1]”的形式拼接。例如,如果提取规则中只取文章ID,则拼接地址应填写“[参数1].html”。

  测试采集的效果如下:

  

  各种采集器爬虫程序实现原理的科普文章

  我们已经成功采集每页到达10个文章地址,然后输入内容采集。

  采集content

  采集内容主要有两个方面,一是文章标题,二是文章内容。 采集的原理是模拟访问文章页面,获取文章页面的所有源码。此源代码带有文章 内容和 HTML 标签。然后从源代码中提取标题,文章 内容。一般有三种提取方法。第一种比较原创,找到唯一字段,然后用字符串截取提取目标内容。第二种方法使用正则表达式来提取。该方法需要能够编写正则表达式。第三种比较简单,使用Xpath规则提取。浏览器自带xpath规则,不需要自己写,但是提取失败率比较高。

  

  各种采集器爬虫程序实现原理的科普文章

  优采云这里的配置如下:

  

  各种采集器爬虫程序实现原理的科普文章

  填好规则后,可以用下面的测试试试,看看提取的内容有没有问题。

  内容采集规则相同,这里不再赘述。

  当你的采集内容不需要或者需要替换时,可以使用替换规则进行修改。

  

  各种采集器爬虫程序实现原理的科普文章

  这些功能是部分收费的,优采云采集器V9 无限制版本分享,提供免费工具供大家使用。 采集部分就这些,下一章讲发布规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线