文章自动采集插件(更新子级栏目,仅更新所选栏目生成文档html栏目)
优采云 发布时间: 2021-12-17 05:14文章自动采集插件(更新子级栏目,仅更新所选栏目生成文档html栏目)
主程序文件:../autogather/co_autogather_main.php
目标框架:主要
文件列表:留空
然后单击“确定”将此插件添加到系统中。然后刷新左侧导航,辅助插件栏会有自动更新
6.点击左边的自动更新采集,它会显示你当前设置的所有采集点,你会在最右边找到一个操作栏,配置为自动< @采集 并获取代码。
OK,我们现在点击Configure to Automatic 采集,就会出现自动采集更新的具体配置参数窗口:
以下是对各个参数的具体说明:
采集 导出后的目标列:采集 数据应该导入到哪个列
采集数据参数设置:采集数据时,采集每批多少条数据,采集的线程数,间隔多少秒(需要设置)用于防刷新站点)
列导入数据参数设置:每批次导入多少项
要更新的列:导入数据后,要更新的列
列生成参数设置:每批创建的最大页数,即批量创建列页时每批创建的页数
更新选项:更新列的所有页面:一次更新列的所有页面,只更新指定的页数:一些网站列表文件太多,如果全部更新,会花很多时间时间长,所以可以设置这个参数只更新前几页。如果点击该选项,下方会显示一个隐藏的文本框,更新前的页数,这里设置更新的页数
是否更新子列:更新子列,只更新选中的列
生成文档html参数设置:每批生成多少内容页文件
OK,设置好各项参数后,点击Save Configuration,会生成一个配置文件到缓存文件夹
7.点击获取代码
下方将出现一个文本框,其中收录获得的代码
复制里面的代码。
8. 创建一个html文件,任意命名,但建议取一个有意义的名字,这样以后配置多个自动采集点时,容易区分
打开此文件,将复制的代码粘贴到文件中,然后保存文件。
9. 在windows定时任务中,创建定时任务并设置执行时间。因为php只能这样,我本来想考虑之前discuz的方式,只要网站前台有用户权限,那么程序就会自动开始执行,但是这样不好,因为< @采集程序执行时间比较长,所以前台访问者访问的页面总是显示正在打开,浏览体验不好,只能借助windows来完成计划任务。Unix和linux也有类似的程序,这里就不多说了。
既然设置了定时任务,到了指定的时间就可以执行了。
注1:由于程序是在dedev3.1的环境下开发的,所以界面已经被用于3.1,所以在上图中,你会觉得颜色不匹配。请注意。
注2:由于程序完全剥离了dedecms,有两个配置参数需要手动修改
请修改 autogather/include/config_base.php 中的 $cfg_dbhost, $cfg_dbname, $cfg_dbuser, $cfg_dbpwd 以与您的系统保持一致
$cfg_indexurl ='' 在 autogather/include/config_hand.php 中;请修改为与您的域名一致,例如:
如果不修改以上两个地方,那么这个程序就不会运行。