【豆瓣】豆瓣影片采集规则及发布到本地CSV格式文件

优采云 发布时间: 2020-08-09 21:25

  今天为你们带来豆瓣影片采集规则,同时为你们讲解怎样本地发布csv文件。

  另外昨天还给你们讲解怎样通过fiddler抓包软件抓取网页真实网址。

  文件包中收录两个规则文件,一个发布模板文件,请根据以下说明使用。

  本规则为优采云采集器V9版规则,其他低版本不可使用。

  本规则采集豆瓣影片信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如须要采集更多数据,请自行配置IP资源。

  规则文件“豆瓣影片 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用

  文件“豆瓣影片.csv"为发布csv模板,请将此文件复制到FileTemplate目录下

  文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置

  本规则仅供广大用户学习交流参考,不可用以违规目的或商业用途,我们不对因使用此规则导致的任何法律问题承当责任。

  商业版用户有问题或付费定做规则请联系官方客服QQ:800019423 服务*敏*感*词*:

  

  优采云采集器豆瓣影片采集规则分享.rar(4.94 KB, 下载次数: 228)

  【案例讲解】

  本案例是采集豆瓣影片信息数据,网址

  

  如上图,这种瀑布流方式的网页是难以直接看见数据列表的真实网址,需要利用抓包软件来抓取真实网址,我们这儿是推荐使用Fiddler。

  

  大家可以自行去下载该软件,然后打开软件,打开豆瓣影片页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。

  关于fiddler的使用教程:

  另外因为豆瓣使用的是https合同,fiddler软件须要进行设置方可抓取https合同的网址,设置方式参照:

  【如何设置发布数据到本地CSV格式】

  

  如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后须要设置一个保存模板,下载附件中早已收录了应当模板文件,可以直接使用。(这里也简单提下怎样制做模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方法打开,再指出一下,一定要用记事本打开,然后根据自己的采集标签更改,字段名一定要与采集器内容采集中的标签名相同,字段之间的冒号一定要用中文顿号。)

  

  如上图在其他设置里有个任务运行线程及时间,发布的线程可以更改,这可以推动发布的速率。

  

  一切设置好以后,按照上图,可以把上面两√去掉,然后运行任务即可将数据保存到本地csv格式。

  往期福利:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线