教程:PHPCMS v9 文章采集
优采云 发布时间: 2022-09-30 12:09教程:PHPCMS v9 文章采集
phpcms v9默认内置文章、图片和下载三种内容模型。我们先来看看最常见的文章采集。以采集新浪互联网频道、国内滚动新闻栏目为例
1、进入后台,内容-内容发布管理-采集管理-添加采集积分。(与以前版本的 Phpcms 不同,采集 在模块菜单中管理)
2、网址规则。采集项目名称随便填,采集页面代码默认为GBK。对于具体的采集页面,可以查看其网页源代码。
URL采集没有大的特点,通过查看想要的采集页面的URL规则来填写。分析目标页面的结果是一个序列URL,而要获取的内容的URL都在两个标签之间。没有其他干扰链接,因此无需定义哪些字符必须收录在 URL 中,哪些字符不能收录在 URL 中。如果目标 网站 配置了 Base,那么也配置它。
URL采集的配置完成了,但是如果目标网站列表页使用js实现上下页,或者要获取的URL深度超过2级,就会很难使用内置的采集。
3、内容规则。phpcms就是用“[content]”作为通配符,然后设置开始和结束字符,然后过滤掉不必要的代码,实现内容采集。分析目标页面的title标签比较规整,可以直接如图设置。
过滤格式为“要过滤的内容[|]替换值”,如果删除,替换值留空。过滤规则支持正则表达式。系统自带几个常用的标签过滤规则。新手要更灵活的过滤有点困难,所以新手需要先熟悉正则表达式。
根据规则获取作者规则、来源规则、时间规则。小编尝试了一个固定值,发现无法实现,即给某个标签设置固定值,比如设置“source”为,但是采集结果源标签为空。
内容规则,填写开始和结束标签,我们测试的目标页面比较干净,所以只过滤掉里面的超链接和一些无用的标签。
内容分页规则,如果内容页有分页,一定要填写。这里没有分页文章。小编会在下图采集中介绍这个标签。
4、自定义规则,除了系统默认的标签,还可以自定义各种标签,规则都是一样的,但是有一点需要注意:规则的英文名称一定要填写,否则无法保存自定义标签。
5、高级配置,这次可以设置下载图片、图片水印、内容分页和导入顺序。注意如果需要水印记得修改你的网站的水印图片,水印存放路径:statics/images/water
6、规则设置好后,提交回采集管理首页。您可以先测试一下每个标签是否准确。
7、发布内容。如果无误,先点击采集网址,会自动采集文章地址,过滤重复网址。然后会弹出采集URL完成的消息,点击里面的“采集文章Content”
采集自动显示采集进度。
采集完成后会自动返回采集管理首页,点击内容发布,进入采集文章列表,勾选文章即可发布,或者直接点击底部的全部导入。
进入发布计划选择界面,新建发布计划,选择发布栏。此测试选择 文章 模块的“国内”列。在新的计划页面上,可以设置自动提取摘要、自动提取缩略图、导入文章 @文章状态、标签和数据库对应关系。其中,import 文章状态只有一个“release”。如果站长需要状态为待审核,则必须先将相应栏目的工作流程修改为一级审核。
在标签与数据库的对应关系中,采集标签与数据库字段一一对应。如果有自定义标签,找不到对应的字段,需要先修改模型添加字段,再修改模板显示,技术要求高。,不适合初学者。此外,系统自带多项处理功能,也相当实用。
发布方案设置好后会自动开始导入选中的文章,下次导入不需要创建方案,选择已有的方案即可。
干货教程:SEO工具—百度搜索“搜索工具”
今天上午,一位同事在早会上分享了百度的高级搜索技巧,从百度高级搜索功能和搜索说明方面分享了技巧。分享中有需要学习的地方,同时推荐百度的“搜索工具”,其实是一种更简单方便的搜索方式。
我们知道百度其实在2015年3月10日左右就上线了“搜索工具”功能(具体时间忘记了,3月10日找到的,没去研究),这个功能更好的服务于用户,简化了之前的部分搜索流程获取说明。
“搜索工具”主要功能:
1、原高级搜索下的时间检索增加页面显示位置,提升用户体验。
2、Web 和文件大数据检索。
3、支持站内检索,简化域指令。
“搜索工具”功能展示
1、【时间】选项分为四个:日、周、月、年,还有自输入查询的功能,不用去高级搜索页面选择时间~高亮就是还可以定制,更方便外包人员工作~
2、【所有网页和文档】选项主要包括:不限格式(所有网页和文档)、Adobe Acrobat PDF(.pdf)、Microsoft Word(.doc)、Microsoft Excel(.xls)、Microsoft Powerpoint (.ppt),RTF文件(.rtf):省去写说明的时间~大家下载东西不再无脑~可以搜索拉更精准~
3、【站内检索】这里需要注意的是站内检索只支持一级域名。准确找出文章收录以后会不会依赖它,没错~