【豆瓣】豆瓣影片采集规则及发布到本地CSV格式文件
优采云 发布时间: 2020-08-09 21:25今天为你们带来豆瓣影片采集规则,同时为你们讲解怎样本地发布csv文件。
另外昨天还给你们讲解怎样通过fiddler抓包软件抓取网页真实网址。
文件包中收录两个规则文件,一个发布模板文件,请根据以下说明使用。
本规则为优采云采集器V9版规则,其他低版本不可使用。
本规则采集豆瓣影片信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如须要采集更多数据,请自行配置IP资源。
规则文件“豆瓣影片 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用
文件“豆瓣影片.csv"为发布csv模板,请将此文件复制到FileTemplate目录下
文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置
本规则仅供广大用户学习交流参考,不可用以违规目的或商业用途,我们不对因使用此规则导致的任何法律问题承当责任。
商业版用户有问题或付费定做规则请联系官方客服QQ:800019423 服务*敏*感*词*:
优采云采集器豆瓣影片采集规则分享.rar(4.94 KB, 下载次数: 228)
【案例讲解】
本案例是采集豆瓣影片信息数据,网址
如上图,这种瀑布流方式的网页是难以直接看见数据列表的真实网址,需要利用抓包软件来抓取真实网址,我们这儿是推荐使用Fiddler。
大家可以自行去下载该软件,然后打开软件,打开豆瓣影片页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。
关于fiddler的使用教程:
另外因为豆瓣使用的是https合同,fiddler软件须要进行设置方可抓取https合同的网址,设置方式参照:
【如何设置发布数据到本地CSV格式】
如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后须要设置一个保存模板,下载附件中早已收录了应当模板文件,可以直接使用。(这里也简单提下怎样制做模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方法打开,再指出一下,一定要用记事本打开,然后根据自己的采集标签更改,字段名一定要与采集器内容采集中的标签名相同,字段之间的冒号一定要用中文顿号。)
如上图在其他设置里有个任务运行线程及时间,发布的线程可以更改,这可以推动发布的速率。
一切设置好以后,按照上图,可以把上面两√去掉,然后运行任务即可将数据保存到本地csv格式。
往期福利: