如何文章采集(PHP教程列表中的列表设置的方法和方法 )

优采云 发布时间: 2022-03-16 08:17

  如何文章采集(PHP教程列表中的列表设置的方法和方法

)

  中间:(*).html

  最后一页:

  复制一个分页地址,回到“添加采集节点”页面,选择“源属性”为“批量生成列表URL”,将地址粘贴到“匹配URL”中,修改正则更改为(* ),在“批量生成地址设置”(*)中输入1到172,表示生成列表第一页到最后172页的所有地址。

  测试一下,可以看到弹框里循环出了172条地址记录,而且设置很顺利。有时我们遇到一个难以获取的列表,那么我们可以将不规则的地址复制到“手动指定列表URL”文本框到采集。

  3.设置文章网址匹配规则

  文章 地址源页面在上面指定。这一步需要在这些页面中找到满足要求的文章地址页面。打开一个列表页面观察,左边栏的方框收录了我们需要的所有地址。在这种情况下,可以区分明显的页面,可以通过“区域开头的HTML”和“区域末尾的HTMLL”的设置进行过滤。

  然而,也可以使用其他方法。将鼠标移到链接地址,观察浏览器左下角显示的完整地址,我们需要的地址都收录“PHP_jiaocheng/20”,然后我们填写“必须收录”。

  两种方法都可以过滤掉地址,当遇到复杂的页面时,可以一起使用。通过正则化,几乎没有地址不能被过滤掉。对比下图。最后,进入下一步“Web 内容获取规则”。

  

  4.网页内容获取规则

  列表设置方法如上所述。接下来,我们进入内容获取规则的设置。如果采集是上菜,上面前三步的功能只是后面主菜的开胃菜。接下来介绍如何从目标站传输文章内容采集。这一步是整个采集的核心部分。

  继续回到织梦的PHP教程列表,打开列表中任意一个文章,这里我们以“正则表达式”的文章为例:,复制地址到“预览网址”;因为所有织梦文章都没有分页,这里的分页不需要设置,直接进入“固定采集项目”页面

  (注意:如果采集的内容收录分页,只需要在分页导航部分设置匹配规则即可。有全部列出的分页列表,有上下页,或者不完整的分页列表。根据内容可以)

  引用如下:

  所有列出的分页列表:分页内容列出了所有的链接,如下图所示

  上下翻页形式或不完整分页列表:单页显示当前分页内容,不完整显示列表形式

  5. 固定 采集 项目

  进入这一步,我们开始分析页面源码。采集 无非就是分析 HTML 页面的结构来获取我们需要的内容。因此,要求我们对HTML代码有一定的了解,通过查看页面源文件可以找到需要的内容。最好多开几页分析一下,找到一样的。

  建议您使用 Dreamweaver 分析。在分析页面代码的时候,多使用搜索功能会方便很多,尤其是找到标签后,搜索一下是否有重复,减少分析错误。

  1) 文章标题:这个页面的标题是“正则表达式” 复制一下,在Dreamweaver中按Ctrl+F搜索全部,有30条记录。由于其唯一性,这里我们选择第105行的“正则表达式”标签,将其复制到“固定采集项”文章标题的匹配规则中,并将标题替换为关键字“ [content]" ,最终成为 [content]。

  2)作者:以作者为关键字继续搜索,只有110行有唯一出现,将它们与之前和之后的标签一起复制到匹配规则中,并用[内容]替换你的地方想要 采集。

  3) 来源:同上,找到第109行的标签,复制,用[content]替换你想要的地方采集。如果源中收录超链接标签,想去掉,在过滤规则框中,填写以下规则过滤掉:

  ]*)>

</a>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线