文章采集规则(核心五部曲:列表采集规则核心只需要填写这五个空)
优采云 发布时间: 2021-10-17 00:20文章采集规则(核心五部曲:列表采集规则核心只需要填写这五个空)
核心五步:列表的核心采集只需要填写这五个空白。
看这是一个例子
让我们从科普开始,在html中
类对应于Jquery。
id对应jquery#
下面示例中的每个选择器都有。
不要拉下这些小符号
目标采集 目标地址:这是一个国内游戏新闻列表页面
打开页面
在页面上右键->勾选,会出现下面的框。可以看到页面的源代码
如图:
他每页有十条新闻
*敏*感*词*区域为本页所有文章所在的范围
*敏*感*词*区域对应右侧的代码区域class = down-nr
说明:添加ul li 将循环文章 所在的每个区域。达到了我们批量上架采集的目的
注意:本步骤请务必使用调试功能测试。(使用方法如下)
最终列表 采集 范围结果:.down-nr>ul>li
列表中的十篇文章文章 是在该区域中找到的。让我们在 文章 区域和相应的 文章 链接中找到十篇文章。
因为我们拿到了具体的文章链接,所以我们可以去采集每一个文章的内容!
恭喜你完成第一步
现在我们已经定位到了文章区域,我们需要在该区域找到文章的链接
一般文章区域只有一个a,即文章地址。但是这个例子不同
截图中可以观察到li的文章区域有两个a
第一个a是新闻列表页面的地址,第二个a是我们需要的地址文章
我们使用 Jquery 的 eq 语法 a: eq(1) 表示取第二个 a
注:代码从0开始(一个标签只能填一个),
注意:如果目标站链接是相对链接。程序会自动完成
当当~
最终列表 采集 规则:a:eq(1) href
href 表示选择a标签的href属性(即文章地址)
注意:请使用Debug功能(使用方法如下)
第二步完成。. .
我们要进入文章详情页,
感觉有点累。让我们自己学习吧。这很简单。
注意:请使用Debug功能,并使用debug功能查看每一步的结果。
详情采集Scope.sub-cont
解释:看图。子内容包括标题,内容是它们的父区域。选择这个区域。
详情采集规则标题 = .n_title
详情采集规则内容 = .sub-nr
解释:看图。n_title 是 文章 的标题
解释:看图。sub-nr 使得 文章 的内容
当当~~~
最后一切都完成了。最终配置
属性说明
href基本上是指a标签的href属性(该属性存储点击后的跳转地址)
text 取区域的文本,一般用于标题
html提取区的所有html一般都是用来提取内容的,内容比较多。并且内容有很多像image css js 排版的东西。所以得到所有的原创html
如何使用标签过滤?给大家描述一下(使用空格区分多个过滤规则)
a是去除区域内所有a标签跳转功能。保留文本
-a 删除a标签包括删除a标签中收录的内容(不推荐,因为有些图片在a中,a中的图片也没有了。)
-div 删除所有 div
-p 同上
-b 同上
-span 同上
-p:先删除第一个p标签
-p:last 删除最后一个 p 标签
-p:eq(-2) 删除倒数第二个 p
-p:eq(2) 删除两个正p
就是这个套路...
标签过滤支持所有的Jquery语法,非常强大。可以帮你处理各种乱七八糟的数据
只是过滤方法的一部分。其实更多请自行百度。
请看下面的图片
请看上图,这只是过滤的一部分。人人拥有百度,肥鼠采集有非常强大的过滤功能。
新手可以导入默认示例来品尝。所有规则匹配,直接使用
如何使用调试功能
让我们为大家而战
以上是debug,测试10个链接采集是否成功。获得链接后,您可以采集详情页
您还应该使用调试功能来测试是否可以正确获取详情页的标题内容。
我测试了链接标题内容,三个规则数据都正确。那么 采集 应该是稳定的。
花一点时间准备一次就可以一直使用。我希望你能花一点时间来学习。
这个 网站 只是一个例子。
目标站点html与此不同,你可以动动脑子做更多的改变。使用 Debug 查看更多结果
报酬
支付宝
微信
此文章出自,转载请注明!