一个关于采集文章列表的教程采集设置的规则
优采云 发布时间: 2021-08-10 07:04一个关于采集文章列表的教程采集设置的规则
大家好,今天我们来聊一聊采集文章list 的教程。今天的目标是网易的互联网新闻榜。地址是:
好的,我们来看看采集设置的规则和步骤。首先点击“内容”、“内容管理”、“一键管理工具”,在右侧的操作窗口中点击“新建项目”,输入采集的项目名称和属于采集的列文章后如下:
点击下一步进入集合列表的采集规则,我们要采集的列表首页,即列表索引页,如下图:
列表索引页:
浏览这个网址,查看源文件,找到这个文章列表的开始和结束标签,如下:
列出开始标签://TechNews.getNews(icid, TechNews.date, TechNews.pagex);
列表结束标记:
列表索引分页:无设置
点击下一步进入设置链接的标签,如下:
链接开始标签:"url":"
链接结束标记:“
这样设置后就可以看到了
列表拦截测试
这里就可以看到列表页的效果了,(点击一篇文章文章即可进入)点击下一步继续设置内容页的规则。
开始短标题标签:
短标题结束标签:
文章Content 起始标签:
文章内容标签结束:
时间设置可以省略。如果想要采集其他站点的时间,选择设置选项卡,然后查看源码如下:
时间开始标记: