如何文章采集(PHP教程列表中的列表设置的方法和方法 )

优采云发布时间: 2022-03-16 08:17

　　如何文章采集(PHP教程列表中的列表设置的方法和方法

)

　　中间：(*).html

　　最后一页：

　　复制一个分页地址，回到“添加采集节点”页面，选择“源属性”为“批量生成列表URL”，将地址粘贴到“匹配URL”中，修改正则更改为（* )，在“批量生成地址设置”(*)中输入1到172，表示生成列表第一页到最后172页的所有地址。

　　测试一下，可以看到弹框里循环出了172条地址记录，而且设置很顺利。有时我们遇到一个难以获取的列表，那么我们可以将不规则的地址复制到“手动指定列表URL”文本框到采集。

　　3.设置文章网址匹配规则

　　文章地址源页面在上面指定。这一步需要在这些页面中找到满足要求的文章地址页面。打开一个列表页面观察，左边栏的方框收录了我们需要的所有地址。在这种情况下，可以区分明显的页面，可以通过“区域开头的HTML”和“区域末尾的HTMLL”的设置进行过滤。

　　然而，也可以使用其他方法。将鼠标移到链接地址，观察浏览器左下角显示的完整地址，我们需要的地址都收录“PHP_jiaocheng/20”，然后我们填写“必须收录”。

　　两种方法都可以过滤掉地址，当遇到复杂的页面时，可以一起使用。通过正则化，几乎没有地址不能被过滤掉。对比下图。最后，进入下一步“Web 内容获取规则”。

　　4.网页内容获取规则

　　列表设置方法如上所述。接下来，我们进入内容获取规则的设置。如果采集是上菜，上面前三步的功能只是后面主菜的开胃菜。接下来介绍如何从目标站传输文章内容采集。这一步是整个采集的核心部分。

　　继续回到织梦的PHP教程列表，打开列表中任意一个文章，这里我们以“正则表达式”的文章为例：，复制地址到“预览网址”；因为所有织梦文章都没有分页，这里的分页不需要设置，直接进入“固定采集项目”页面

　　（注意：如果采集的内容收录分页，只需要在分页导航部分设置匹配规则即可。有全部列出的分页列表，有上下页，或者不完整的分页列表。根据内容可以）

　　引用如下：

　　所有列出的分页列表：分页内容列出了所有的链接，如下图所示

　　上下翻页形式或不完整分页列表：单页显示当前分页内容，不完整显示列表形式

　　5. 固定采集项目

　　进入这一步，我们开始分析页面源码。采集无非就是分析 HTML 页面的结构来获取我们需要的内容。因此，要求我们对HTML代码有一定的了解，通过查看页面源文件可以找到需要的内容。最好多开几页分析一下，找到一样的。

　　建议您使用 Dreamweaver 分析。在分析页面代码的时候，多使用搜索功能会方便很多，尤其是找到标签后，搜索一下是否有重复，减少分析错误。

　　1) 文章标题：这个页面的标题是“正则表达式” 复制一下，在Dreamweaver中按Ctrl+F搜索全部，有30条记录。由于其唯一性，这里我们选择第105行的“正则表达式”标签，将其复制到“固定采集项”文章标题的匹配规则中，并将标题替换为关键字“ [content]" ，最终成为 [content]。

　　2)作者：以作者为关键字继续搜索，只有110行有唯一出现，将它们与之前和之后的标签一起复制到匹配规则中，并用[内容]替换你的地方想要采集。

　　3) 来源：同上，找到第109行的标签，复制，用[content]替换你想要的地方采集。如果源中收录超链接标签，想去掉，在过滤规则框中，填写以下规则过滤掉：

　　]*)>

</a>

0

2022-03-16

如何文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何文章采集(PHP教程列表中的列表设置的方法和方法 )

0 个评论

发起人

AI时代内容工厂

如何文章采集(PHP教程列表中的列表设置的方法和方法 )

0 个评论

发起人

相关问题