文章采集功能(原帖.5说明您的列表页设置的有问题明明只需要采集其中 )

优采云 发布时间: 2021-09-08 17:23

  文章采集功能(原帖.5说明您的列表页设置的有问题明明只需要采集其中

)

  原帖由茄子发表于 2008-1-3 14:43

  

  这意味着您的列表页面设置有问题

  显然你只需要在其中一个列表页面上采集文章,为什么要写100个列表

  茄子,你没看懂我的意思,可能是我没表达清楚

  

  .

  让我们举个例子。以SS5.5为例,我认为在这个列表页面的[论坛资源]下采集文章。因为里面的内容每天更新不超过5条(基本上是1-2条),所以我只需要设置采集每次的文章数量为例如5(注意不是40在整个列表页面)文章),并选择不允许标题重复采集,如果我每天运行采集器。这样,我只要每天跑一次采集,肯定能把采集里面的信息全部弄出来。

  我提到的采集文章数设置是指这个设置:

  但是如果换成SS6.0的逆序采集,同样的设置,我选的地永远是最后5个。为了得到最新的更新,我必须将文章采集数设置为列表页显示的文章的数量,这里是40。

  但是想象一下如果某个网站他的列表页面在页面上显示200个文章...?假设这个网站每天更新的内容是前5,但是如果我想用逆序采集,你每次都要遍历这200条。

  这就是我认为目前采集规则倒序不合理的地方。目前的规则是,运行采集器后,系统会先访问这个列表页面,记录所有符合规则的文章url,然后对这些URL从下到上或从上到下进行逆序或前序排序采集设置的文章内容数量。而且我觉得应该是系统访问,只记录从顶部开始设置文章采集的url数,然后按正序或反序执行采集,这样就解决了之前的问题。与目前的采集规则相比,只是多出了一步,但是这样一来,采集这个非常非常好的功能,将会有更广阔的实际应用空间。希望开发者可以考虑。

  下面有图片说明:

  希望这次我说清楚了

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线