【腾讯新闻】使用文章采集软件快速提取网页文章

优采云 发布时间: 2020-04-22 11:03

  

  1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的方式诠释的,那么首先就要把列表页的地址作为起始网址先添加到列车采集器中。

  这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是假如我们要添加的网址好多,几百或上千条,那么一条条的进行添加就过分冗长,所以我们可以试着找出网址之间的变化规律,进行批量添加。

  我们分别打开第一页、第二页……观察其网址变化,可以发觉不仅第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:

  

  那么我们首先将不符合规律的第一页网址“”添加到起始网址的列表中如下:

  

  第一页添加好了,那么前面的列表分页我们选择向导添加——批量网址添加文章自动采集软件,用一个通用的格式手动产生所须要的网址,网址中的变量就可以用地址参数来取代,地址参数的规律须要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后列车采集器V9手动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。

  

  

  2、获取内容页网址:通过观察新闻页面可以发觉列表分页的下一级就是内容页,那么内容页 网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方法,通过剖析列表页面的源代码,可以找出新闻内容页地址所在的市 域文章自动采集软件,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写然后列车采集器会在这个区域内手动辨识地址链接,我们点击网址采集测试就 可以看见我们设置的规则采集到列表页和内容页网址是否正确和完整。

  

  

  

  第二步、内容采集规则

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线