采集文章内容(Phpcmsv9默认内置文章、图片、下载3个内容模型 )

优采云 发布时间: 2021-10-30 23:02

  采集文章内容(Phpcmsv9默认内置文章、图片、下载3个内容模型

)

  phpcms v9 默认内置了三种内容模型:文章、图片、下载。我们先来看看最常见的文章采集。以采集新浪网络频道、国内滚动新闻栏目为例

  1、进入后台,内容-内容发布管理-采集管理-添加采集积分。(与之前版本的Phpcms不同,采集是在模块菜单中管理的)

  

  2、网址规则。采集 随意填写项目名称。采集页面编码默认为GBK,具体采集页面可以查看网页源码。

  

  

  URL 采集 没有主要功能。通过检查所需的 采集 页面的 URL 规则来填写它。对目标页面进行分析,是一个序列URL,要获取的内容的URL在两个标签之间。没有其他干扰链接,因此无需定义必须和不得收录在 URL 中的字符。如果目标网站配置了Base,那么也必须配置。

  

  URL采集配置结束,但是如果目标网站列表页面使用js实现上下页,或者URL的深度超过2级,就很难实现使用这个内置的 采集。

  3、内容规则。phpcms 使用“[content]”作为通配符,然后设置开始和结束字符,然后过滤掉不需要的代码实现内容采集。分析目标页面的title标签比较规则,可以直接设置如图。

  

  过滤格式为“要过滤的内容[|]替换值”,如果被删除,则将替换值留空。过滤规则支持正则表达式。该系统带有几个常见的标签过滤规则。新手比较灵活的过滤有点难度,所以新手需要先熟悉正则表达式。

  

  根据规则获取作者规则、来源规则和时间规则。小编尝试了一个固定值,发现无法实现,即将某个标签设置为固定值。比如设置“source”为,但是采集结果源标签为空。

  

  内容规则,填写开始和结束标签,我们测试的目标页面比较干净,所以我们只需要过滤掉里面的超链接和一些无用的标签即可。

  

  内容分页规则。如果内容页有分页,必须填写。文章这里没有分页。小编会在下图中介绍这个标签采集。

  4、自定义规则,除了默认标签,还可以自定义各种标签。规则是一样的,但有一点需要注意:规则的英文名称必须填写,否则自定义标签将不可用。节省。

  5、高级配置,这次可以设置下载图片、图片水印、内容分页和导入顺序。注意如果需要水印记得修改你的网站的水印图片,水印存放路径:statics/images/water

  

  6、规则设置好了,提交回采集管理首页,可以测试一下标签是否准确。

  

  7、发布内容。如果都准确,请先点击采集 URL,它会自动采集文章地址,并过滤重复的URL。然后会弹出采集 URL补全信息,点击“采集文章Content”

  

  采集 自动显示采集的进度。

  

  采集 完成后自动返回采集管理首页,点击内容发布,进入采集文章列表,勾选要发布的文章 ,或直接点击底部的全部导入。

  

  进入发布计划选择界面,新建发布计划,选择发布栏。本次测试选择文章模块的“国内”列。在新的计划页面,可以设置摘要自动提取、缩略图自动提取,以及导入文章状态、标签和数据库的对应关系。其中,导入文章的状态只有一个“release”。如果站长需要状态为待审核,则必须先将相应栏目的工作流程修改为一级审核。

  

  在标签与数据库的对应关系中,采集标签与数据库字段一一对应。如果有自定义标签,找不到对应的字段,需要修改模型添加字段,再修改模板显示,对技术要求比较高。,不适合新手。此外,系统自带的处理功能也非常实用。

  

  发布计划设置好后,会自动开始导入你刚才选择的文章,下次导入就不用再构建计划了,选择已经构建好的计划即可。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线