网络爬虫必看的文章采集示例
优采云 发布时间: 2020-08-07 23:19在我们的日常工作和学习中,采集一些有价值的文章可以帮助我们提高信息的利用率和整合率. 对于新闻和学术论文等电子文章,我们可以使用网络爬网工具. 采集,这种类型的采集相对容易采集一些数字化的,不规则的数据. 这是一个Ucai Cloud Collector V9的示例,为每个人介绍了文章采集示例.
熟悉的朋友知道可以通过官方网站上的FAQ来检索采集过程中遇到的问题,因此这里以采集常见问题为例来说明Web爬网工具采集的原理和过程.
在此示例中,我们将演示地址.
(1)创建一个新的采集规则
选择一个组并单击鼠标右键,选择“新建任务”,如下所示:
(2)添加起始网址
在这里,假设我们需要采集5页数据.
分析网址变量的规律
首页地址:
第二页地址:
第三页地址:
由此我们可以推断出p =之后的数字是分页的含义,我们使用[address parameter]来表示:
因此设置如下:
地址格式: 使用[地址参数]表示更改后的页码.
编号更改: 从1开始,即第一页;每增加1,即每页的更改数量;共5项,共5页.
预览: 采集器将根据上述设置生成一部分URL,以便您判断添加的内容是否正确.
然后确认.
(3)[常规模式]获取内容URL
普通模式: 默认情况下,此模式获取第一级地址,即从起始页的源代码获取到内容页A的链接.
在这里,我将向您展示如何自动获取地址链接并设置区域.
检查页面的源代码以找到文章地址所在的区域:
设置如下:
注意: 有关更详细的分析说明,请参阅本手册:
操作指南>软件操作> URL采集规则>获取内容URL
点击URL采集测试以查看测试效果
(3)内容采集URL
以说明标签采集为例
注意: 有关更详细的分析说明,请参阅本手册
操作指南>软件操作>内容采集规则>标记编辑
我们首先检查其页面的源代码,然后找到“标题”所在的代码:
导入Excle是一个弹出对话框〜打开Excle-优采云采集器帮助中心时出错
已分析: 起始字符串为:
结尾字符串为:
数据处理内容替换/排除: 需要替换-优采云采集器帮助中心为空
设置内容标签的原理相似. 在源代码中找到内容的位置
已分析: 起始字符串为:
结尾字符串为:
数据处理-HTML标记排除: 过滤不想要的A链接等.
设置另一个“源”字段
这样一个简单的文章采集规则已经准备就绪. 我不知道网民是否学过. 顾名思义,它适合在网页上捕获数据. 从上面的示例中还可以看到,这种类型的软件主要是仅通过源代码分析来分析数据. 还有一些未在此处列出的情况,例如登录采集,使用代理采集等. 如果您对Web抓取工具感兴趣,则可以登录器官采集网站以自己学习. 返回搜狐查看更多