采集文章内容(PHP教程列表中的列表设置的方法和方法)

优采云发布时间: 2021-12-22 08:08

　　中间：(*).html

　　最后一页：

　　复制一个分页地址，回到“添加采集节点”页面，选择“源属性”为“批量生成列表网址”，将地址粘贴到“匹配网址”中，修改规则更改为(*) , 在“批量生成地址设置”（*）中输入1到172，表示生成列表的第一页到最后172页的所有地址。

　　测试一下。在弹出的框中，我们可以看到循环出172条地址记录，并且设置的很顺利。有时我们会遇到列表难以获取的情况，我们可以将不规则地址复制到“手动指定列表URL”的文本框中到采集。

　　3.设置文章 URL匹配规则

　　上面指定了文章地址源页面，本步骤需要在这些页面中找到符合要求的文章地址页面。打开一个列表页面，观察左列的框收录我们需要的所有地址。在这种情况下，我们可以区分明显的页面。您可以使用“区域开头的HTML”和“区域结尾的HTMLL”的设置进行过滤。

　　然而，也可以使用其他方法。将鼠标移动到各个链接地址，观察浏览器左下角显示的完整地址。我们需要的所有地址都收录“PHP_jiaocheng/20”，那么我们填写“必须收录”。

　　这两种方法都可以过滤掉地址。如果遇到复杂的页面，可以一起使用。通过正则化，几乎没有不能过滤掉的地址。与下图进行比较。最后确认，进入下一步“网页内容获取规则”。

　　4.网页内容获取规则

　　上面介绍了设置列表的方法，接下来我们进入内容获取规则的设置。如果采集是主菜，上面一到三步的作用只是开胃菜，作为下面主菜的介绍。下一步是介绍如何从目标站中带入文章采集的内容。这一步是整个采集中最核心的部分。

　　继续回到织梦的PHP教程列表，打开列表中的文章。这里我们以《正则表达式》文章文章为例：，复制地址到“预览网址”；因为织梦所有文章都没有分页，所以这里不需要设置分页，直接进入“固定采集项”页面

　　（注意：如果采集的内容收录分页，则只需完成分页导航部分的匹配规则即可。这里列出的所有分页列表，上下页表格或不完整的分页列表需要根据内容好的）

　　以下为引用内容：

　　列出所有分页列表：分页内容列出所有链接，如下图

　　上下页格式或不完整页列表：单页显示当前页内容，不完整列表格式

　　5. 固定采集项目

　　进入这一步，我们开始分析页面的源码。采集无非就是分析HTML页面的结构，获取我们需要的内容。因此，我们需要对HTML代码有一定的了解，能够通过查看页面源文件找到我们需要的内容。最好多开几页进行分析，找出相似之处。

　　推荐大家使用Dreamweaver分析。分析页面代码时，使用搜索功能方便很多，尤其是找到标签后，搜索重复，减少分析错误。

　　1) 文章标题：本页标题为“正则表达式”，复制，在Dreamweaver中按Ctrl+F搜索全部，共30条记录。由于唯一性，这里我们选择105行段落“

　　将“Regular Expression”标签复制到“Fixed 采集 Item”文章标题的匹配规则中，将标题替换为关键字“[Content]”，最后替换为[Content]。

　　2) 作者：以作者为关键字继续搜索，只有110行有唯一的外观，将它们与alluse前后的标签一起复制到匹配规则中，并使用[content]替换地方其中采集是必需的。

　　3) 来源：同上，在109行找到标签，复制，用[Content]替换采集需要的地方。如果来源收录超链接标签，想去掉，在过滤规则框中填写如下规则过滤掉：]*)>

0

2021-12-22

采集文章内容

0 个评论

要回复文章请先登录或注册