文章采集调用(一个网站的采集规则/article/collectsite.php)
优采云 发布时间: 2021-11-14 16:13文章采集调用(一个网站的采集规则/article/collectsite.php)
首先登录后台,点击上方菜单“模块管理”-“小说连载”,然后点击左侧菜单“采集配置”链接,会显示当前所有采集@ > 规则,每一行代表一个网站。 1、“单篇采集规则”指的是一篇采集文章文章所需的规则配置,主要内容包括网站名称、网站@ > 地址、文章标题、作者等基本信息,以及本文章的章节结构和章节内容,可以点击编辑配置修改采集规则。
2、“Batch采集”是在单个采集的基础上进行的,比如采集一个文章所有文章在列表页@>,这个列表可以是最近更新、排行榜或文章的一个类别。批量采集的规则主要是获取列表页的文章名称和文章序号,然后将单个采集调用到采集,如果需要获取列表的第二页、第三页等内容,则需要设置翻页的参数解析规则。
注意:所有采集规则都生成了相应的配置文件,允许网站配置在:configs/article/collectsite.php中的采集,某个网站的规则配置文件为:configs/article/site_网站英文logo.php,所以网站英文logo不允许重复。例如:在configs/article/collectsite.php中配置起点中文网站的采集:
$jieqiCollectsite['1']['name'] ='起点中文网';$jieqiCollectsite['1']['config'] ='cmfu_com';$jieqiCollectsite['1']['url ' ] ='';$jieqiCollectsite['1']['subarticleid'] ='';$jieqiCollectsite['1']['enable'] = '1';
那么起点采集规则配置文件是configs/article/site_cmfu_com.php。