解决方案:马克斯4.0 采集规则的编写
优采云 发布时间: 2020-10-24 08:00Max4.0采集规则的编写
配置MaXcms后,输入背景,例如我的是:
第一步是设置基本参数
选择采集主菜单,然后单击以添加采集规则(实际上是修改了我的规则,但过程与添加规则相同。此处的解释主要是通过修改来了解采集规则的编译其他”)
目标站点网址:
======
这是列表的第一页
批量生成采集个地址:{$ ID} -12.html
=======
这是一个通过分页具有类似URL的网站,通常只是更改ID,例如,第一页是xxx-1-12.html,第二页是xxx-2-12.html
其他
=======
应正确选择播放源。如果目标值不再高于此值,则应该不可能采集! !具有学习能力,您应该下载源代码并添加下一条规则。
分页设置,这里是采集分页表格,或采集单页
内容过滤设置,仅应为采集,而不应为采集这些标记。看起来应该只是采集个这些标签。
下一步采集列出连接设置
此页面是最关键的设置。需要分析以前的源代码。
目标区域列表在右侧。您可以看到该块的上部和下部在源代码中具有相应的注释。然后,列表的开头和列表的结尾是这两个注释。在其他情况下,可能没有注释,您需要找到一些带有class或id的div块来区分。
在源代码中,图片下方电影的链接是“ title =“成家立业”>成家立业
链接开始:
链接结尾:“
步骤3:采集内容和数据地址设置
第三步中的设置更加详细。此时,此步骤设置播放电影的页面的详细信息。例如,上面的链接:
基于这些名称,比较要搜索的人员的源代码。它应该是唯一必须找到的一个。这很累。麻烦。我的应该已经过时,需要更新。
回来,添加并完善。通过研究,我发现制定一些采集规则非常令人沮丧,而且还可以。没有方便的教程。