文章采集规则(核心五部曲:列表采集规则核心只需要填写这五个空)

优采云 发布时间: 2021-10-17 00:20

  文章采集规则(核心五部曲:列表采集规则核心只需要填写这五个空)

  核心五步:列表的核心采集只需要填写这五个空白。

  

  看这是一个例子

  让我们从科普开始,在html中

  类对应于Jquery。

  id对应jquery#

  下面示例中的每个选择器都有。

  不要拉下这些小符号

  目标采集 目标地址:这是一个国内游戏新闻列表页面

  打开页面

  在页面上右键->勾选,会出现下面的框。可以看到页面的源代码

  

  如图:

  他每页有十条新闻

  *敏*感*词*区域为本页所有文章所在的范围

  *敏*感*词*区域对应右侧的代码区域class = down-nr

  说明:添加ul li 将循环文章 所在的每个区域。达到了我们批量上架采集的目的

  注意:本步骤请务必使用调试功能测试。(使用方法如下)

  最终列表 采集 范围结果:.down-nr>ul>li

  列表中的十篇文章文章 是在该区域中找到的。让我们在 文章 区域和相应的 文章 链接中找到十篇文章。

  因为我们拿到了具体的文章链接,所以我们可以去采集每一个文章的内容!

  恭喜你完成第一步

  现在我们已经定位到了文章区域,我们需要在该区域找到文章的链接

  

  一般文章区域只有一个a,即文章地址。但是这个例子不同

  截图中可以观察到li的文章区域有两个a

  第一个a是新闻列表页面的地址,第二个a是我们需要的地址文章

  我们使用 Jquery 的 eq 语法 a: eq(1) 表示取第二个 a

  注:代码从0开始(一个标签只能填一个),

  注意:如果目标站链接是相对链接。程序会自动完成

  当当~

  最终列表 采集 规则:a:eq(1) href

  href 表示选择a标签的href属性(即文章地址)

  注意:请使用Debug功能(使用方法如下)

  第二步完成。. .

  我们要进入文章详情页,

  感觉有点累。让我们自己学习吧。这很简单。

  

  注意:请使用Debug功能,并使用debug功能查看每一步的结果。

  详情采集Scope.sub-cont

  解释:看图。子内容包括标题,内容是它们的父区域。选择这个区域。

  详情采集规则标题 = .n_title

  详情采集规则内容 = .sub-nr

  解释:看图。n_title 是 文章 的标题

  解释:看图。sub-nr 使得 文章 的内容

  当当~~~

  最后一切都完成了。最终配置

  

  属性说明

  href基本上是指a标签的href属性(该属性存储点击后的跳转地址)

  text 取区域的文本,一般用于标题

  html提取区的所有html一般都是用来提取内容的,内容比较多。并且内容有很多像image css js 排版的东西。所以得到所有的原创html

  如何使用标签过滤?给大家描述一下(使用空格区分多个过滤规则)

  a是去除区域内所有a标签跳转功能。保留文本

  -a 删除a标签包括删除a标签中收录的内容(不推荐,因为有些图片在a中,a中的图片也没有了。)

  -div 删除所有 div

  -p 同上

  -b 同上

  -span 同上

  -p:先删除第一个p标签

  -p:last 删除最后一个 p 标签

  -p:eq(-2) 删除倒数第二个 p

  -p:eq(2) 删除两个正p

  就是这个套路...

  标签过滤支持所有的Jquery语法,非常强大。可以帮你处理各种乱七八糟的数据

  只是过滤方法的一部分。其实更多请自行百度。

  请看下面的图片

  

  请看上图,这只是过滤的一部分。人人拥有百度,肥鼠采集有非常强大的过滤功能。

  新手可以导入默认示例来品尝。所有规则匹配,直接使用

  如何使用调试功能

  

  让我们为大家而战

  

  以上是debug,测试10个链接采集是否成功。获得链接后,您可以采集详情页

  您还应该使用调试功能来测试是否可以正确获取详情页的标题内容。

  我测试了链接标题内容,三个规则数据都正确。那么 采集 应该是稳定的。

  花一点时间准备一次就可以一直使用。我希望你能花一点时间来学习。

  这个 网站 只是一个例子。

  目标站点html与此不同,你可以动动脑子做更多的改变。使用 Debug 查看更多结果

  报酬

  

  支付宝

  

  微信

  此文章出自,转载请注明!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线