文章cms采集(如何找列表索引分页标签，宾哥唯一的图7)

优采云发布时间: 2022-01-02 09:21

　　发现不是唯一的，每个列表项都有这个代码，只能选择上层容器，

　　搜索发现只有这个，而这个是我们的列表

　　所以，在选择列表范围时，应该如图7所示，

　　图 7

　　细心的朋友会问。我没有告诉你如何找到列表索引选项卡。 Bing看了一眼搜狐。由JS控制来减少或增加页面。于是Bing颤抖着Clever，我刚点了两次下一页，发现页面在减少。这样，我就放心了。根据批量生成的方法，我设置了一个范围。不过我建议大家，第一次采集以后采集的时候可以这样做，直接关闭列表索引分页，也就是选择不设置，就这样看到这里，点击步骤，

　　图 8

　　在图8中，我们可以看到有我们想要采集的消息。由于斌哥的笔记本屏幕小，更多的内容我们无法截图，大家就看吧。获取文章的每一个链接，这里不是寻找唯一性，而是寻找每个文章容器中的URL信息。这时候就要回到采集的文章列表页面的源码，如图9

　　图 9

　　红线标注的是他的链接信息，但是我们发现下面还有一个，不然选择的时候，这个文章会出现两次采集，所以选择上面的那个另一边，有全文的那个，因为看全文会发现这个文章的唯一性，我们要选择http:~~~ .shtml，所以，比在引号里面好，如图10

　　图 10

　　那么，我们的文章列表就整理好了采集的规则是，如图11，然后下一步，检查是否可以抓取到文章的URL .

　　图 11

　　下一步之后，我们可以看图12，除了标题和内容，还有时间作者等，可选选项，大家可以根据自己的需要选择，还有左下角，也是我们上一步的测试结果，

　　图 12

　　随便打开一篇文章网站文章，打开这篇文章文章，还是查源码，设置规则，我们要采集他的标题和内容,

　　在源码中搜索文章标签，发现有两条信息。第一个肯定是标题信息。可以忽略，也可以在这里设置规则，但是不推荐，因为有一些网站这里的文字是一样的。这样，检索到的文章标题是一样的，

　　当我设置规则时图 13

　　图 13

　　点击下一步后会发现我们已经捕获到了这个文章的信息，如图14

　　图 14

　　然后向下滚动浏览器，发现下面，有上一步和下一步，我们点击下一步，就到了设置规则的最后一步，如图14

　　图 14

　　说明，在图14中，除了上半部分根据自己的需要进行设置外，还有一个比较重要的，就是标签过滤。你可以参考我的。如果需要采集其他人的FLASH文件，取消Object即可。在采集选项中，建议选择保存图片。其他的根据你的需要设置。还有存储选项。建议选择审核，我们保证测试。值得注意的是，如果不审计直接进入存储，必须选择“立即写入主库，直接生成内容页面”，因为此项会自动生成一个静态页面。如果不选择此选项，将无法打开采集即将到来的文章。

　　采集方法介绍

　　规则设置好了，我必须采集新闻，如何采集，其实这是一键操作

　　图 15

　　图 15

　　只需点击采集，就可以了。细心的朋友会再次看到一个克隆。其实这是一个方便的和网站列设置一样的风格。比如我可以采集搜狐的国内时事，他们用的是同一个模板，所以我只需要改名，修改采集的列URL和页面URL规则，就这样。

　　大家都学会了吗？在搜狐修改版本之前，请尽快尝试设置~~~

　　这个文章是冰哥写的。如需采集，请关注出处。白天不要让 Bing 去上班。加班加点完成本教程的辛苦下班~~

0

2022-01-02

文章cms采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章cms采集(如何找列表索引分页标签，宾哥唯一的图7)

0 个评论

发起人

AI时代内容工厂

文章cms采集(如何找列表索引分页标签，宾哥唯一的图7)

0 个评论

发起人

相关问题