文章采集规则(小说站相对来说比较好采需要注意的几个方面需要)
优采云 发布时间: 2021-09-08 03:07文章采集规则(小说站相对来说比较好采需要注意的几个方面需要)
最近采集小说,小说网站比较好挑,有几点需要注意:
1、fill 会员,获取cookie
采集必须收费直到会员拿到cookie,否则没有浏览权限。
2、fiction 电台类型
一些小说网站是微信公众号的形式,需要手机抓包。与网站相比,它更麻烦。网站采集 相对容易,但也有限制。去哪儿了,站长做了防御采集隐藏起来。
3、外链好烦
有些小说在文章中嵌入了大量的外链,格式不一,而且体积很大,让人很头疼。
4、站点号码
这对于有不同需求的人来说是不同的。 采集故事上传到自己的小说网站,采集到的文章小说有一定的规则,就是按照序号,很多站点故意把序号弄乱,格式乱七八糟,而且很多匹配这些序列号时浪费了很多时间。还做不到,100% 的匹配是正确的。小说的200万章总有一些不正确的匹配。
作者-0654-348
------------------------20181208 更新--------------------- ---
注意:
5、优采云采集fiction,请先说明采集模板样式。如果有童鞋,直接来采集规则,然后需要根据模板修改模板。会比较麻烦,单拷贝采集和全本采集的规则不一样~
6、全本采集,部分小说网站没有章节中的小说名称。如果需要一级网址或二级网址采集的数据,则需要优采云的会员版,免费版无法使用。
如果cookie在7、采集失败,我们仍然需要学习如何抓包。
======20191109 更新======
8、关于教程问题:
8.1、采集PC端小说可以按照“优采云basic教程”解决,尤其是那些免采集的PC端小说网站,比如:Pen-Qu ,Ge==八+一+中文+文字))网。
8.2、采集微信公号 小说教程比较麻烦,因为公众号不稳定,公众号会失效,教程可能需要重新制作。我也联系了一些做小说网站的人。朋友们,很少想公开分享,所以可能需要等待一段时间。
======20191123 更新======
9、List 获取和发布页面
昨天有朋友需要采集的网站,微信公众号上的一个小说网站。本站会提前获取前15章,以下均为post请求。朋友测试的时候,总是发现前面少了。第15章,后来仔细查了一下,发现list页面的get数据没有获取到。
因为标注规则是一样的,可以直接把前面15章的列表页的URL复制到优采云的起始地址,就可以得到了。
======20200420更新======
10、优采云小说采集视频视频
点此购买店铺链接无效,暂停销售
======20201130更新======
承接:优采云fiction规则定制,PC站和微信公众号站点均可采集。点击页面右上角的联系我