一个简单的文章采集实例
优采云 发布时间: 2020-04-17 11:06
同样先点击“添加”按钮再点击“完成”按钮,就添加成功了:
多次添加起始网址是依照添加的次序排列的,先添加的先采集后添加的后采集!!!!!
3,添加获取文章地址规则
上面我们早已添加了文章列表地址,现在须要通过文章列表页地址获取到最后的文章地址。点击多级网址获取一侧的添加按键:
弹出下边界面:
上图见到有很多的选项,本教程只讲解最简单的一种“从页面手动剖析得到地址链接”,这种方法只要设置下边的开始结束区域,火车头都会手动获取到地址。
查看页面源代码找到文章地址所在的区域
区域设置的大小是随便的只要能保证文章的地址正好在这个区域上面,上图我找“
”,要保证这个字符是在第一次出现的地方正好是文章列表地址开始的地方,
所以我们找的字符可以是多次出现文章采集,我们只在乎第一次出现的位置。
通过查找结果如下:
刚好第一次出现的地方就是文章列表的开始,然后从这个字符串开始,我们仍然找到最后一个文章地址的地方如下图:
我们找到上图“”,大家可以看见这个字符出现的次数不止一次为何我们还是选择这个呢?从我们里面找到的开始字符“
”开始,保证我们找到的结束字符“
”是第一次出现的就可以了,我们查找下:
现在开始和结束字符都找到了我们填写到采集器上面如下图:
右侧“结果网址过滤”通过设置地址中必须包含和不得包含来排除些不要的信息多个条件之间用“|”隔开。
那么设置好了我们就可以测下采集结果:
结果如下:
已经成功采集内容页地址了。
3,设置内容采集规则
通过采集地址:的标题内容来讲解怎样在采集器设置规则采集需要的信息。
在第二步:采集内容规则选项卡,如下图:
这里已然构建好了标题,我们选中之后点击右侧的“修改”,来更改标签。
我们首先查看前面哪个地址的页面源代码,找到我们“标题”在哪里如下图:
我们找到好多处包含标题的地方,我们任意选择一个填写到采集器上面如下图:
看到了没有,我们只要找到标题后面字符是哪些结束字符是哪些,中间的就是我们要的内容。
举个简单的事例:小王小李小陈站一排,那么我知道小王在哪里了,然后又晓得小陈在哪里了,
那么参杂她们中间的就是小李了。这里“小王”就是采集器上面说的“开始字符串”,“小陈”就是采集器上面说的“结束字符串”,“小李”就是我们要“采集的内容”。
规则设置的原理就是这样的文章采集,理解了就简单了。就是找开始结束字符中间的就是我们要的,采集内容一样的道理设置,采集结果:
相关视频教程:;uk=1040755304
;uk=1040755304
;uk=1040755304
;uk=1040755304