采集文章内容(PHP教程列表中的列表设置的方法和方法)
优采云 发布时间: 2021-12-22 08:08采集文章内容(PHP教程列表中的列表设置的方法和方法)
中间:(*).html
最后一页:
复制一个分页地址,回到“添加采集节点”页面,选择“源属性”为“批量生成列表网址”,将地址粘贴到“匹配网址”中,修改规则更改为(*) , 在“批量生成地址设置”(*)中输入1到172,表示生成列表的第一页到最后172页的所有地址。
测试一下。在弹出的框中,我们可以看到循环出172条地址记录,并且设置的很顺利。有时我们会遇到列表难以获取的情况,我们可以将不规则地址复制到“手动指定列表URL”的文本框中到采集。
3.设置文章 URL匹配规则
上面指定了文章地址源页面,本步骤需要在这些页面中找到符合要求的文章地址页面。打开一个列表页面,观察左列的框收录我们需要的所有地址。在这种情况下,我们可以区分明显的页面。您可以使用“区域开头的HTML”和“区域结尾的HTMLL”的设置进行过滤。
然而,也可以使用其他方法。将鼠标移动到各个链接地址,观察浏览器左下角显示的完整地址。我们需要的所有地址都收录“PHP_jiaocheng/20”,那么我们填写“必须收录”。
这两种方法都可以过滤掉地址。如果遇到复杂的页面,可以一起使用。通过正则化,几乎没有不能过滤掉的地址。与下图进行比较。最后确认,进入下一步“网页内容获取规则”。
4.网页内容获取规则
上面介绍了设置列表的方法,接下来我们进入内容获取规则的设置。如果采集是主菜,上面一到三步的作用只是开胃菜,作为下面主菜的介绍。下一步是介绍如何从目标站中带入文章采集的内容。这一步是整个采集中最核心的部分。
继续回到织梦的PHP教程列表,打开列表中的文章。这里我们以《正则表达式》文章文章为例:,复制地址到“预览网址”;因为织梦所有文章都没有分页,所以这里不需要设置分页,直接进入“固定采集项”页面
(注意:如果采集的内容收录分页,则只需完成分页导航部分的匹配规则即可。这里列出的所有分页列表,上下页表格或不完整的分页列表需要根据内容好的)
以下为引用内容:
列出所有分页列表:分页内容列出所有链接,如下图
上下页格式或不完整页列表:单页显示当前页内容,不完整列表格式
5. 固定 采集 项目
进入这一步,我们开始分析页面的源码。采集 无非就是分析HTML页面的结构,获取我们需要的内容。因此,我们需要对HTML代码有一定的了解,能够通过查看页面源文件找到我们需要的内容。最好多开几页进行分析,找出相似之处。
推荐大家使用Dreamweaver分析。分析页面代码时,使用搜索功能方便很多,尤其是找到标签后,搜索重复,减少分析错误。
1) 文章 标题:本页标题为“正则表达式”,复制,在Dreamweaver中按Ctrl+F搜索全部,共30条记录。由于唯一性,这里我们选择105行段落“
将“Regular Expression”标签复制到“Fixed 采集 Item”文章标题的匹配规则中,将标题替换为关键字“[Content]”,最后替换为[Content]。
2) 作者:以作者为关键字继续搜索,只有110行有唯一的外观,将它们与alluse前后的标签一起复制到匹配规则中,并使用[content]替换地方其中 采集 是必需的。
3) 来源:同上,在109行找到标签,复制,用[Content]替换采集需要的地方。如果来源收录超链接标签,想去掉,在过滤规则框中填写如下规则过滤掉:]*)>