火车头采集器使用教程–分析目标网站文章链接位置及规则

优采云发布时间: 2020-04-26 11:02

　　下面我们要从列表页剖析下来他文章的地址。

　　首先看下火车头采集教程，在列表页上面他的文章链接都在我红线画出的部份。

　　然后我们就可以从画出这部份上面的代码找到地址，我们看一下

　　是在server-r2这个div上面

　　注：我用的是浏览器带的调试功能，直接按按键F12就下来了。

　　我们查看网页源代码，浏览器按CTRL+U即可

　　CTRL+F搜索server-r2，可以见到只有一个结果，没有其他重复项

　　那么这个就可以作为我们火车头采集器手动从列表页剖析文章链接的开始部份了。我们复制server-r2，填入火车头的开始字符串那儿，意味着火车头从这一段开始找寻文章链接。

　　然后我们还要确定下结束字符串位置

　　直接看下述表页最后一个文章是啥

　　然后再源码上面瞧瞧这个文章在那个位置

　　找到了位置，我们尽可能在他下边找下一个DIV开始的标记。这里我们找到了

　　<div>这个DIV，我们复制class="cp-manu"https://cdn.cheshirex.com/uploads/2020/03/QQ截图20200319225619.png" data-fancybox="group" >

　　其实这时候早已可以查找到确切的文章链接了，但是我们最好还是加一个过滤

　　在联接过滤--必须包含上面填入.html这个内容，然后回车键即可。想添加更多条内容就在输入过滤规则火车头采集教程，再回车。

　　后面那种设置图标点一下可以选择：满足其中一个条件或则满足所有条件。

　　以上基本完成了我们采集文章链接的规则，我们点一下下方的保存，先存一下。

　　如果你是新建任务规则可能提示你要输入任务名

0

2020-04-26

火车头网站分析

0 个评论

要回复文章请先登录或注册